淑芬日记(三):数据异动分析
数据异动归因
面试主要问题
- 某某指标上周较之前几周有突降,应该如何分析?
- 辛普森悖论
- 可以写在简历中:熟悉简单的数据异动归因方法
业务场景
在日常工作中,产品、运营甚至研发团队都会关注核心指标,以此了解业务现状。如果指标波动不符合预期,就需要对数据的异常波动进行深入说明。数据分析(数分)至少需要解决以下两个问题:
- 如何确定这种指标波动一定是异常且需要分析的?
- 如何进行分析给出“为什么涨、为什么跌”的结论?
判定波动是否异常
接到需求以后,先做一个前置判断:值不值得分析?
1. 业务经验判断
- 常规的时间波动:去年同期、上个月同期出现了一样的情况,说明波动符合预期。
- 3σ原则(针对正态分布)。
- 凭个人直觉或者业务经验。
- 提出异动归因需求的一般是业务负责人或一线产品团队,数据分析师较少主动发现异动问题并做归因(因为归因在大多数公司属于低价值需求)。
- 业务方通常根据自身认知判定是否存在异常。
2. 量化考核
- 与过去一段时间的均值比较,看是否有明显的下降或上升。
- 3σ原则:
- 3σ区间:对于服从正态分布的数据,约99.73%的数据会落在均值 ± 3σ的范围内(σ为标准差)。如果数据点超出该范围,则可能存在异常。
- 控制上限(UCL)和控制下限(LCL):数据点超出这些控制限,则表明可能存在异常,需要进一步分析。
- 应用场景:
- 质量管理:监控生产过程,确保产品缺陷率较低。
- 服务业:分析客户满意度数据,提高服务质量。
- 统计学:异常值检测与风险控制。
- 与上周同期、往年同期比较,看是否有明显的上升或下降。
按照上述考核标准,当指标波动超过阈值时,则证明确实存在异常,需要进一步分析。
定位异常维度
1. 基础方法(遍历)
核心目标:找到一个维度,在该维度的不同水平上的目标指标变化不同(有的上升,有的下降)。常见的维度及其水平:
- 性别:男、女
- 年龄:18- 、18-24、24-30、30-40、40+
- 城市:一线城市、二线城市、其他城市
- 操作系统:iOS、Android
示例(以性别为例):
- 若大盘指标A在下降,
- 但男性用户群体内指标A未跌,
- 而女性用户群体内A明显下降,
- 说明“性别”是关键维度,A的下降是由女性用户的行为变化引起的。
- 业务验证:与业务方确认近期是否针对女性用户有活动或策略调整,导致其使用体验受影响。
2. 高阶方法
2.1 对同一维度不同水平的前后数据做分布检验
目标:检验不同时间段的同一群体数据分布是否发生变化。
维度 | 上周 | 本周 |
---|---|---|
男 | 分布1 | 分布2 |
女 | 分布3 | 分布4 |
- 如果分布1 ≈ 分布2,分布3 ≈ 分布4 → 说明此水平上的用户行为未发生明显变化,该维度不是引起大盘指标异动的核心维度。
- 如果分布1 ≠ 分布2,分布3 ≠ 分布4 → 说明该维度的不同水平上确实出现变化,可能是大盘指标波动的原因。
2.2 基于 JS 散度的异常维度定位
- 与 2.1 方法类似,但 JS 散度(Jensen-Shannon Divergence)可以更好地量化不同水平上本期与上周的分布差异。
- 检验方法:
- 卡方检验(Chi-Square Test)
- KS检验(Kolmogorov-Smirnov Test)
- JS散度(Jensen-Shannon Divergence)
JS散度介绍
JS散度是一种基于KL散度(Kullback-Leibler Divergence)的改进方法,衡量两个概率分布之间的相似性。
- 优势:
- 克服了KL散度的非对称性问题。
- 在概率分布比较中更加稳定。
- 应用场景:
- 数据分布变化检测。
- 用户行为变化分析。
- 风险监控。
小结
- 数据归因的准确度严重依赖于画像标签的建设。
- 我们的目标是找到影响大盘变化的关键群体,并用合适的标签标明。
- 如果公司画像标签建设较弱,可以推动更精准的标签体系建设,提升数据分析的精度和效率。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Feiyang CHENG!