Skip to content

衡量数据为什么重要

Published: at 08:00 AM

在互联网工作的大家应该都对数据的概念不陌生,今天主要是给大家『数据』概念上的总结,让大家知道『数据分析』这件事的价值,同时也通过一些简单的案例去告诉大家如何提高自己的数据意识和一些基础的数据概念。

数据分析的价值

你要问一个刚刚入行的数据分析师『你的工作是干什么的?』,他的回答很有可能是:

纵览数据分析的工作内容,岗位是为了什么存在的?他的价值是什么?在我看来,数据分析的核心是帮助大家进行更好的决策。

决策是什么

我们日常生活中就有很多决策,比如为什么要来北京工作、今天是准时下班还是加班卷到凌晨、午餐吃什么、买哪里的房子; 这些细微决策最终都会影响你的生活质量和生活方式.

对于一个组织来说决策就更为重要,大到什么时候开展一个新的业务线获得二次增长曲线、小至按钮的边距是不是 8 PX;无论决策的大小,都是会是蝴蝶翅膀的一次扇动。在组织里,一个组织的决策是否做的好直接影响了组织是否可以走的更远

做好决策这件事其实挺难的,首先我们需要设定一个目标,OKR 里面的 『O』 其实就是就是这个目标;其次是需要制订出达成目标的战略与战术,孙子兵法的核心就是战前的谋划;最后我们需要一个指标去衡量我们的战略与战术的完成度。

这里可能是一个绝大多数人存在的误区,我们最终衡量的是『战略与战术的完成度』,而不是『目标』。达成目标的方式有很多,我们需要通过数据去判断那种战略更好,并通过数据来知道我们的战略战术。

当然衡量指标的设定是需要被完善的评估的,比如搜索公司很容易就设置到提高广告带来的收入上,那么通过这个衡量指标带来的战略方向很有可能变成降低搜索结果的相关性,这让用户不得不进行多次搜索进而点击更多的广告。

通过数据去衡量的好处是什么?

首先数据去衡量的首当其冲的优势就是可以然决策变的客观科学,可以让好的点子脱颖而出,而是因为职级反正我说的就是对的;另外也可以让决策突破角色的限制,并不是只有PM 可以提出想法,设计、研发都可以参与想法的 PK。

A/B testing 与常见的数据指标

上面我们非常粗糙的过了一下数据的价值,下面和大家聊聊一下常见的产品相关数据指标与 A/B 实验

A/B Testing

我们在过去的一年内也陆陆续续上了很多 A/B Testing,我这里简单给还不熟悉或者未曾用过 A/B Testing 同学科普一下什么是 A/B Testing。要讲好 A/B Testing 真的不得不提统计学的一些概念,但是作为科普向的分享,我们就先丢掉那些数学的东西,讲讲一些概念上的。

A/B Testing 背后的统计学概念是假设检验,最早运用到商业领域大家普遍认为是制药公司,我们看个栗子:

一个去『火』的中药怎么确定是有效果的呢?你可能可以想到两种做法:

  • 查看吃药的人和未吃药的人的差异表现
  • 查看吃药前后的差异表现

但是这两种做法都没办法去确定『因果关系』。只看吃过药和没吃药,很有可能会出现选择偏差(幸存者偏差就是选择偏差的一种);只看吃药前后,因为人有自身调节能力,所以没办法认为是吃药带来的效果。当然『火』是什么我也不知道。

A/B Testing 是怎么解决这个问题的呢,其实就是通过大数定理。我们寻找一组人,随机的将他们分成实验组与对照组(因为是一组人,所有他们的平均值在各方面的应该都是一样的),实验组吃真药,对照组吃小糖丸(安慰剂);我们观察一段时间实验组与对照组的『火』下降的水平的区别,就是药物的效果。

我们在设计 A/B Testing 的时候,有两个关键的因素是我们需要考虑的,我们用一个例子带大家了解一下:

我们想知道蓝色和红色的注册按钮是会提升访客的注册率,我们就有了两个假设:

  • H0 :红色按钮和蓝色按钮的点击率是一样的
  • H1 :红色按钮和蓝色按钮的点击率不同

那么通过实现数据和真实情况进行对比时,就有了四种情况:

第一种错误意味着红蓝按钮实际上对注册率没有任何帮助,但是我们错误的认为他们有明显提升,于是我们全量上线了。这样不仅浪费了公司的资源,且让不应该得到奖励的人获得了奖励;在非商业环境上更是恐怖故事,比如健康人误诊睾丸癌割蛋。第一种错误的出现概率用 α 表示,我们期望这个值越低越好,一般会设定在 5 %。

第二类错误意味者我们有多大概率可以检验出红蓝按钮的区别,如果检验出来的概率特别低,这个实验真的是白做了,因为实验的目的就是为了得知红蓝按钮的区别。第二种错误出现的概率我们用 β 标识,一般会设定在 20 %。

当然 A/B Testing 也有一些局限性,我们在跑 A/B Testing 时其实很像我们大雾天去爬一座有很多山峰的山。无论我们多么努力,你只能爬到当前这个山峰的最高点, 当前这个山峰是不是这个山的最高点,抱歉雾太大了不知道。

留存率

如果说衡量一个产品最重要的指标是什么,我的答案必然是留存。留存可以告诉你用户是不是真的喜欢你的产品,增长是否可以持续。

留存的定义看似很简单:在试用过产品的用户里,在一段时间之后有多少人会选择留下。其实定义留存存在三种维度:用户、时间、行为。

用户

留存率是个比率,分子是『依然使用的人』分母是『试用产品的人』。人这个维度就有很多讲究了,比如我们可以看不同渠道来的人、不同角色的人、不同方法来的(运营活动、花钱投放、自然流量)。如何选取看不同的人里面有很大的讲究。

时间

我们是看一天之后还回来的用户、七天之后还回来的用户、还是一周之后还回来的用户;不同的商业模式和产品形态,在选取时间上都有很多的不同。

行为

『回来』是什么?访问主页?打开文件?难道你真的认为每周回来看看我的宝贝文件还在不在的用户是个高质量的用户?如过我们的留存定义一直都是访问主页,是不是我们把某人的裸照放在主页就可以提升留存了呢?是不是『回来』这个行为应该定义在我们的核心价值上。

如何看留存

我们一般会选择两个图去呈现留存率:留存曲线和倒三角表。

留存曲线的纵座标是留存的百分比,横座标是时间;通过一个留存曲线可以很清楚的看到用户的留存率是随着时间降低、持平、增长。留存曲线可以告诉我们产品的长期情况,如果留存率随着时间一直下降,说明产品的用户最终还是会流失的;如果曲线是持平的,说明产品达到稳定的状态;如果曲线向上增长,说明产品的状态非常好,一般只有告诉增长的产品才有可能见到。

倒三角表实际上是个表格,行一般是用户的注册时间、列是时间周期,每个单元格是在改行注册时间内注册的用户在列的时间周期内的留存百分比。横的看代表这个用户群在每段时间的留存表现;竖的看代表不同用户注册周期在使用产品的相同周期的留存表现;斜的代表是同一时间的所有用户的留存,一般受产品功能的改变影响。