Monday, September 12, 2011

数据挖掘项目实施方法论

数据挖掘是指从大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。实际应用中,一个数据挖掘项目是一个过程,而不仅仅是一个算法,一般分为六个阶段,包括定义业务问题范围、数据选取与预处理、探索型数据分析、建模,实施以及结果反馈修正模型,如下图所示:




1. 定义业务问题范围
在这个数据挖掘的初始阶段,需明确阐述项目目标和客户业务需求,目的是明确包括客户响应的数据挖掘问题。具体任务包括:
  • 明确业务目标
  •  定义响应变量
  •  项目计划必要的调整


2. 数据选取和预处理
在这一阶段,建模小组要搜寻并检查客户数据,做为未来的分析定义属性的简略一览表。创建一个数据映射概念图以对应客户数据与建模相关的各个数据属性名。将数据整合到一个适当的程度,省略不适当的记录(如商务客户,非居民客户,如果分析仅针对居民客户)、不完整的数据记录、训练数据、试验数据,等等。具体任务包括:
  • 数据来源
  • 数据映射
  •  准备数据评估
  •  数据的必要聚合
  •  数据抽样

3. 数据分析与数据探索
在这个阶段中,建模小组核查目前的数据源并且努力去发现在每个待选的预测变量和响应变量之间是否有任何关系。数据转换通常在更进一步的范围中探察数据关系。通常,数值分析是为了全面理解数据的第一步,跟着进行的统计分析是为了得到有关数据分配的更好知识。如频率图、柱状图、条线图,散点图、框图和许多其他方式是典型的且很好的数据的图形化呈现工具,使为下一步建立模型准备数据来源变得容易很多。在数据挖掘过程中这是一个关键的阶段,通常随伴着由正式的数据探索报告来记录和呈现发现。具体任务包括:
  •  数据质量检查
  •  数据的必要整理
  • 通过图形化呈现工具和其他的统计方法理解数据
  • 分析待选预测变量和响应变量之间的关系
  •  数据转换以辅助数据的分析
  •  数据派生为建立模型做准备
  • 整理和呈现数据探索的发现

4. 建模
在这一阶段,建模小组建立并确认分析模型。建模小组通常尝试不同的建模技术(数据挖掘算法),结合不同数据集,衡量模型性能的不同,选出最好的。来自最终用户的业务领域知识在这个阶段是非常关键的,因为他们可以评价和确认模型的结果、理解发现并付诸实际行动,即证明这些模型并在实际环境中实施。具体任务包括:
  • 为模型的训练和验证准备数据集
  • 在模型的建立中使用适当的建模技术
  • 针对不同的建模技术测试模型性能
  • 必要地精炼分析模型
  • 和主题专家一起的检验分析模型
  • 记录分析模型和结果
5. 实施
在这一阶段,需要用模型的结果帮助客户作出业务决定、战略设计和战术实施。将模型产生的结果输入到客户的业务系统中,触发相应的业务行动是数据挖掘项目实施的关键一环。例如:利用客户流失分析模型(如决策树)预测下月将要离网的客户名单,并将客户名单输入客服系统,根据这些客户的消费行为特性,针对性地制定客户挽留方案,由客服人员对可能离网的客户进行挽留。具体任务包括:
  • 模型评分和存储模型
  • 利用模型产生结果
  • 数据挖掘自动化,整合其它业务系统,如客户接触渠道系统或更完整的CRM系统
6. 结果反馈修正模型
这一阶段是比较容易忽视的阶段。收集实施结果反馈,为模型的退化进行侦测,更进一步改善模型性能,从而形成业务闭环。例如,通过分析模型实施结果的准确率和召回率,对模型的预测变量进行调整,提升模型的性能。另外,模型也需要定期更新,以保证模型的性能。具体任务包括:
  • 模型结果反馈收集
  • 模型修正
  • 数据挖掘自动化,整合其它业务系统




No comments:

Post a Comment