1. 定义业务问题范围
在这个数据挖掘的初始阶段,需明确阐述项目目标和客户业务需求,目的是明确包括客户响应的数据挖掘问题。具体任务包括:
- 明确业务目标
- 定义响应变量
- 项目计划必要的调整
2. 数据选取和预处理
在这一阶段,建模小组要搜寻并检查客户数据,做为未来的分析定义属性的简略一览表。创建一个数据映射概念图以对应客户数据与建模相关的各个数据属性名。将数据整合到一个适当的程度,省略不适当的记录(如商务客户,非居民客户,如果分析仅针对居民客户)、不完整的数据记录、训练数据、试验数据,等等。具体任务包括:
- 数据来源
- 数据映射
- 准备数据评估
- 数据的必要聚合
- 数据抽样
3. 数据分析与数据探索
在这个阶段中,建模小组核查目前的数据源并且努力去发现在每个待选的预测变量和响应变量之间是否有任何关系。数据转换通常在更进一步的范围中探察数据关系。通常,数值分析是为了全面理解数据的第一步,跟着进行的统计分析是为了得到有关数据分配的更好知识。如频率图、柱状图、条线图,散点图、框图和许多其他方式是典型的且很好的数据的图形化呈现工具,使为下一步建立模型准备数据来源变得容易很多。在数据挖掘过程中这是一个关键的阶段,通常随伴着由正式的数据探索报告来记录和呈现发现。具体任务包括:- 数据质量检查
- 数据的必要整理
- 通过图形化呈现工具和其他的统计方法理解数据
- 分析待选预测变量和响应变量之间的关系
- 数据转换以辅助数据的分析
- 数据派生为建立模型做准备
- 整理和呈现数据探索的发现
4. 建模
在这一阶段,建模小组建立并确认分析模型。建模小组通常尝试不同的建模技术(数据挖掘算法),结合不同数据集,衡量模型性能的不同,选出最好的。来自最终用户的业务领域知识在这个阶段是非常关键的,因为他们可以评价和确认模型的结果、理解发现并付诸实际行动,即证明这些模型并在实际环境中实施。具体任务包括:- 为模型的训练和验证准备数据集
- 在模型的建立中使用适当的建模技术
- 针对不同的建模技术测试模型性能
- 必要地精炼分析模型
- 和主题专家一起的检验分析模型
- 记录分析模型和结果
- 模型评分和存储模型
- 利用模型产生结果
- 数据挖掘自动化,整合其它业务系统,如客户接触渠道系统或更完整的CRM系统
这一阶段是比较容易忽视的阶段。收集实施结果反馈,为模型的退化进行侦测,更进一步改善模型性能,从而形成业务闭环。例如,通过分析模型实施结果的准确率和召回率,对模型的预测变量进行调整,提升模型的性能。另外,模型也需要定期更新,以保证模型的性能。具体任务包括:
- 模型结果反馈收集
- 模型修正
- 数据挖掘自动化,整合其它业务系统
No comments:
Post a Comment