现在的大数据杀熟是一件常见的事,更有一些大佬们呕心沥血的算法加持下;我觉得只要数据足够多,那么它就能做到很多匪夷所思、神奇的事情。但是巧妇难为无米之炊,那些数据到底是哪里来的呢?
以前根据自己的分析,怀疑是输入法、浏览记录导致信息泄漏,进而看见那些广告推送。直到看半佛老师的:你的手机是如何监控你的,开拓了我不少眼界,例如唤醒监控、推送SDK同家公司等,也让我对其更深的理解。
一、半佛老师的视频笔记总结
1.1 信息泄漏基本不会来源于录音,但是会识别关键词
- 信息泄漏基本不会来源于(手机)录音:效率低,利润低,误差率高,成本高
- (某APP)持续录音,会对手机内存的占用;现象:发热,卡,且容易被杀掉进程和检测出来
- 录下来的音频存放点。存放本地存储,长时间占用太大;将其使用流量上传,但流量并非免费
- 将其录下来的音频转换成文字保存或直接上传,则会遇到下面问题:语音识别误差率大
- 语音识别误差率大,分辨不出是谁在讲话,而且语音不标准(即口音)。还有语义问题,不同场景,同一句湖就是不同意思
- 不做录音。但是真的有时候就是没有浏览只是日常讲话提及,随之会出现在广告推送。
- 通过特定的关键词唤醒监控。
- 常见的唤醒方案:小爱,siri。所以有些app要求录音权限 ,可用于唤醒监控
- 只做关键词,无论是直接上传还是识别度都是操作相对简单很多
- 通过特定的关键词唤醒监控。
Ps: 注意手机的App,对其录音的权限是否关闭
1.2 输入法
- 输入法,只要打字,就离不开输入法。
- 纯文本的语意分析,那可是相对成熟的技术。
- 另外所有的输入法都是越用月好用,越用越懂你。
- 那么,到底是怎么懂你的呢?当你在触摸方便之门的时候,方便也在触摸着你
Ps: 建议关闭输入法用户体验计划?最好禁用其联网
1.3 推送类sdk
- 现在各种手机推送大都是专门有公司做成sdk嵌入到各大app里面的,然后专门做推送。
- 做推送的,往往对于各类手机和应用的适配做得比较好;比App自己开发要好用很多。
- 所以很多app都是使用外采推送sdk的,不然市面上这么多的手机型号,自己还要一个一个去适配,还要去实验规则。
- 假如你手机上有30个app,它可能背后都归属于同一家或者是多家公司提供的推送sdk(推送类SDK核心威力所在)
常见的信息泄漏,最基础的就是:App请求获取你的应用列表。它可以根据你装的App来分析你到底是什么用户;而且有没有同行App之类在里面,再根据结果推荐不同的推荐策略。
但是对于推送SDK公司而言,它甚至可以不需要获取你的应用列表,因为你装的App很多都加载了它的推送SDK。你的手机信息是可以被获取的,而且很显然会知道一台手机到底装了哪些app;用户常用那些app,甚至用户对于手机的应用轨迹和应用行为。
1.4 App的信息收集
手机app的信息收集,例如上面的获取手机Applist。举例如下:
- Applist 有 x多多,该用户为价格敏感性
- Applist 有 x哩x哩,可能是个年轻二次元用户
- 通过读取applist,该用户有多个同行App,就发大额优惠券拉拢用户;反之垄断则考虑割韭菜
- 读取地理位置信息,对应的推荐策略
Ps: 建议尽可能禁掉获取Applist的权限,只留一些基本App
1.5 浏览记录,搜索记录
最表层的,你在pc和手机端app搜索记录。大家都在收集这些记录,而且很热衷,都是用来相互交易,明码标价;而且app是绑定手机号的,你的每次搜索记录都会转换成市面的数据包进行交易。
Ps: 无痕浏览只是不保存记录在本地上,网络上是有你的搜索记录的
1.6 数据糅合推送
即使是你尽可能谨慎,少泄漏信息;但是有时候你就是能收到贴心的广告推送。这个推荐策略,并非来自你的信息泄漏,而是周边人信息的泄漏。只要你周边的信息足够多,就能够反推出对你的推荐策略。
例如你是小明,那么你的广告推送有部分决策来源于,小明朋友的相关数据、小明小红父母的相关数据。例如小红怀孕,搜索母婴用品;自然小明那边就可能推送母婴用品等的广告。
二、我的经历和看法
2.1 看法
尽可能上面看起来比较骇人听闻,把每个人的生活经历、决策、不确定性的未来都划出一块一块的数据,但是大家也不要太过担心。毕竟大数据就是大数据,会尽可能把数据抽象、封装,不会完全针对个人;不会说专门从大数据中,抽取具体个人所有的信息并呈现出来,成本太高,普通人是不会有多少问题,还是能平平凡凡渡过一生。
- 大数据的获取和处理还是有一定限制(阻力)的,不然现在贪污腐败都能够分析处理完的。
- 大数据的数据并非是一块完整区域,而是很多大的信息孤岛
- 大的 手机厂商、App,假如它有获取你信息的方法,它基本也不会贩卖给市场;毕竟这是自己一手的资源,不需要贪图点小钱,而是为后面市场(垄断)开拓做准备
- 信息孤岛,则对你的影响力就不是特别特别大;毕竟数据糅合多起来,对你的理解不是加法,是乘法
2.2 观察到的现象
现在目前的情况,感觉输入法泄漏比较多。不过我也有些疑惑和观察一些现象:
- 跟人x信聊天,聊到一句话夹杂:”养猫”,没说过对应的话;一两分钟后,广告推送前两条是猫了!才逐渐推出来输入法有信息泄漏的问题(x信不会要这点小钱,数据应该是留给自己用)
- 有时候不解,广告推送老是推 switch 给我,我一开始以为是哪位亲朋好友的记录,想到上面养猫的输入法泄漏,以及敲C代码用到的 switch语句,一切就豁然开朗了
- 举个常见例子,你手机链接朋友手机开热点,搜索东西;后面朋友就会收到近似的广告推送嘛;这很正常,就锁定IP嘛
- 但是你在PC端,公司局域网,和自己家里私有网络,两台PC的广告推送竟然是一模一样的;那么也就是说,广告推送识别出来这两台电脑的用户都是我;要知道局域网,是只有一个真实IP的,里面都是虚拟IP,也就是说它能整出局域网虚拟IP里面的人到底是谁
- 在公司的不同电脑,查询广告推送,每个人都是有各自的特点;也就是反过来验证了,广告推送能越过 真实IP 查出 虚拟IP 的用户本人
- 如果是注意观察广告推送,要么不智能像傻子一样,一直推广固定几样;如果是智能的,那么推广给你的,大致相同;
- 也就是说背后的(智能)广告推送,基本可能是来源于同一、两家;
- 或者是数据被一个信息市场公开贩卖,但是可能性不大,因为你一搜索就会及时更新广告推送(所以广告大致相同,但不会完全一样)
- 我觉得应该是一两家,数量大于 1 则可能公司之间存在(韭菜)信息共享
到现在,我都不知道它怎么知道虚拟IP的用户是谁。很有可能是通过某些能过识别用户的进程,反过来知道用户;而且这个用户注册是要用手机等(映射出身份证号),例如x信
2.3 经历:你见过的大数据处理够早的应用是什么时候呢?
讲一个真实发生的故事。那你见过的大数据处理够早的应用是什么时候呢?我见过的大数据处理,是我高三的时候,应该是2015年吧?
那个时候,x信有流行小黄鸡,一个聊天的机器人,而且很多层次不齐的版本。有些版本则是上面会有一条广告推送,那时候我有个同学在玩(我没手机),一条广告推送大黄鸡,也是聊天机器人,但号称更了解你(还能充VIP好像),加了后是一个公众号。
小黄鸡回复消息很快,但是你懂得,就是弱智AI;但是那个大黄鸡不一样,你问它一句话,它保底等待30s,甚至好几分钟才能回答你的问题。你可以问它,问题如下:
- 你是谁。它能够回答出来你的名字!
- xx人怎么样。它能回答出中间夹杂 xx的(qq空间活跃过的)经历的答案
- xx是谁。它回复是上一次统考她的成绩排名
- 每次问它问题,它都会回复当前具体的询问它问题的在线人数,然后再提示要等多久(文字表达是:稍等几分钟,耐心等待)
还有好多问题(忘了),它竟然都能回答有模有样,比搜索引擎夸张多了。现在回头想想,其实你的信息早就在很早的时期已经被挖差不多了= = ;那时候应该是爬虫抓的数据???但是也至少有了大数据处理的雏形(或者是已经有进入消费领域的能力)?
那时候就玩了3-4天,那个大黄鸡公众号就被封了。再搜类似的也没有一样的效果的公众号,回去蹲那个小黄鸡的广告推送,也再没看到了;就这样成了回忆。
2.4 反推
- 苦中作乐,当你收到广告的时候,你甚至可以去尝试分析到底是哪个卖了你;
- 当你想了解一个人,甚至不需要查历史记录,还是有没有隐藏文件;打开他的电脑,找个有推送广告的网站简单瞄一眼,你就能获取到关于他、关于他周边人的一些大数据;然后反推来源、原因,就能掌握他一些动态,相当于你对数据又进行一遍加工处理(当然我只是提提,不建议大家这样搞;也不建议电脑给别人用)
我还是比较喜欢半佛老师在视频讲的一句话,在结尾,用它来收尾吧:当一个产品本身不需要你做任何东西,甚至还能占点便宜的时候;只有一种可能,你自己就是商品本身。