排行榜 统计
  • 建站日期:2015-05-20
  • 文章总数:234 篇
  • 评论总数:892 条
  • 分类总数:6 个
  • 最后更新:5月8日

阿里巴巴数据挖掘案例

本文阅读 18 分钟
首页 数据 正文

本文主要介绍阿里巴巴大数据实践在用户画像互联网反作弊这两个数据挖掘应用的案例。

50944-732kqwe1gsb.png

依托强大的云计算技术算法平台与数据挖掘中台体系,近几年阿里巴巴集团沉淀了大量的电商数据挖掘案例,并逐步形成以商家、消费者、商品为核心要素的全域数据挖掘应用体系。本节以淘宝市场上的消费者群体为例,介绍用户画像和互联网反作弊领域中的相关应用案例。

一、用户画像

在阿里巴巴旗下的淘宝网、虾米音乐上都乏个性化推荐场景,淘宝、天猫平台上的众多商家则需要通过用户调研和产品研发来把握产品的目标人群和人群偏好,从而对用户投其所好。对用户有深刻的理解是网站推荐、企业经营制胜的重要一环。在传统企业中,获取用户的反馈信息耗时长、结果缺失,是个难关。然而,随着大数据热潮的兴起,快速捕捉海量用户行为并精确分析人群偏好等商业信息已经成为可能。作为个性化技术的重要基础,相比于传统企业的购物篮分析、问卷调查,在用户画像的塑造上具备技术的天然优势。
阿里全域数据提供了足够的数据基础,正是基于用户网购、搜索和娱乐影音等行为的数据洞察,可以利用数据分析辅以算法的视角对田进行特征刻画。那么,究竟什么是用户画像?通俗地讲,用户画像即是为用户打上各种各样的标签,如商品品牌偏好、商品类别偏好等。这出标签可以用于为用户推荐更适合的商品、为用户提供更好的服务等,例如,分析某用户为女性,可能仅仅是将与女性相关的服装、个人护理等商品作为推荐结果反馈给该用户;但若根据用户以往的浏览、交易等行为挖掘出进一步的信息,如用户的地理信息为海南,买过某几类品牌的服装,则可以将薄款的、品牌风格相似的服装作为推荐结果。
对于刻画阿里的网购用户,则应侧重于他们在网购上的行为偏好。下面以用户女装风格偏好为例,讲解该用户标签是如何基于全域数据产出的。
购买过淘宝商品的读者对商品详情页都不会陌生,一件商品的关键特征除了反映在商品图片和详情页中以外,主要可以采集的信息是商品的标题以及参数描述。女装有哪些风格?首先需要将女装行业下的商品标题文本提取出来,对其进行分词,得到庞大的女装描绘词库。然而,淘宝商品的标题由卖家个人撰写,并不能保证其中的词语都与商品风格描述相关。因此,对于所得到的女装描绘词库,首先,需要根据词货仪重去除无效的停貝词,方法如计算 TF - IDF 值。其次,在女装商品的参数描述中,如果已经包含了一种商品风格,例如“通勤”“韩版”等吊见风格,那么通过计算词库中词语与参数描述中风格词的相似度,可以过滤得到女装风格词库,利用无监督机器学习如 LDA 等方法可以订并出一种风格所包含的词汇及这些词汇的重要性。那么,买家偏好什么八格呢?在淘宝网上,买家拥有浏览、搜索、点击、收藏、加购物华以》交易等多种行为,针对每种行为赋予不同的行为强度(比如浏览行为度弱于交易行为),再考虑该商品的风格元素组成,就能够通过台理方式获知买家对该风格的偏好程度了。

二、互联网反作弊

在人们享受互联网带来的便捷和高效时,有一批人将其黑手伸问了这一领域,他们利用某些网站的技术和业务漏洞进行作弊,从而满足自己的灰色利益需求。可以看到,作弊黑产业链的滋生与发展使得人们的信安全、资金安全,甚至人身安全面临着严重威胁。从业务上看,反作弊工作主要体现在以下几个方面:
(1)账户/资金安全与网络欺诈防控
账户的安全性越来越重要,尤其是购物和理财的网站或 APP ,其账户以及资金的安全更是维持用户信任的最后一道防线。账户隐私数据的泄露和非法交易问题不容忽视。
(2)非人行为和账户识别
大量的非人行为和账户利用自动化程序来模拟人的注册、浏览、点击等行为,帮助一些商家达到提升商品排名或者攻击竞争对手的目的。
(3)虚假订单与信用炒作识别
在平台类电商网站中,随着商家之间的竞争升级,虚假订单和信用炒作逐渐成为许多商家依赖的竞争手段。当下,虚假销量与 GMV 正在毒害健康的经营环境。
(4)广告推广与 APP 安装反作弊
正当大量的企业开始投人人力和财力进行公司产品和品牌的宣传推厂时,也有人通过自动化程序或者人的方式产生虚假的点击和浏览行为,以此打击竞争对手,或者是从中获取直接的经济利益。同样在无线端,在 APP 以 CPA 为主要推广结算方式的情况下,大量的专业刷装机量的公司为很多 APP 产生虚假的装机量数据,以此达到各方获取不正当利益的目的。
(5) UGC 恶意信息检测
用户在各类网站上产生的 UGC 信息,本可以帮助网站更好地了解用户的使用习惯以及潜在需求,帮助优化网站或者产品。但是,很多人却利用文本、图片、声音、视频等内容的复杂性和多样性,恶意传播色情、诈骗、谣言、暴力等不正当信息,给互联网环境造成了很大的威助。

随着作弊场景和手法的不断变化,各个维度的安全技术也在不断孔级保护正常用户免受黑色利益链条的侵害,其中包括物理安全、网络实全、应用安全、数据安全等方面。在数据安全的保障工作中数据挖掘貧法也扮演着十分重要的作用。从所采用的算法技术上说,反作弊方法士要包括如下几类:
(1)基于业务规则的方法
这类方法主要是根据实际的业务场景,不断地发现息结作弊和获利手法,通过反作弊规则的不断拓展或产品设计的完콤来识别、缓解甚至消除作弊现象。比如在电商产品的搜索排名中,对刷单的销量采取类似于降权的处理方式,避免市场秩序受到影响,以此減少商家的刷单行为带来的不正当利益。或者是在 APP 安装反作弊 L 作中,通过查看单个设备的单日出现城市数、登录账号数、设备 id 合法性等建立规则来衡量作弊情况。
这类方法的优点是精度高、可解释性强,能准确识别老的作弊方式;缺点是人力成本高,而且对新的作弊手法滞后性较强。
(2)基于有监督学习的方法
将基于有监督学习的方法应用于反作弊工作中,其基本思路是按有监督分类算法的流程来建模,通过正负样本标记、但在反作弊领域内,此类方法遇到的最大问题是类不平衡现象。因为绝大多数用户及行为都是正常的,只有少数一些用户及行为是恶意的。比如相对于正常用户的转账行为,资金欺诈行为数量是极少的,但是这些极少的行为可能给用户带来无法挽回的经济损失。为了缓解这一问题,我们会在采样或者模型训练过程中进行一些技术处理,以减少类不平衡给识别结果造成的影响。
这类方法的优点是通用性强,人力成本主要集中在样本的标记和特征的处理上;缺点是有些算法结果的可解释性不强,容易造成错判,需要辅以其他指标和方法进行综合判断。
(3)基于无监督学习的方法
在此类方法中较常见的是异常检测算法,该方法假设作弊行为极其罕见且在某些特征维度下和正常行为能够明显地区分开来。所以,假设验、统计分析、聚类分析等手段常被用来做异常检测。比如我们发现账户的网站访问时间段分布有一定的规律,和人们日常的作息时间具有相关性,如果某个账户长期在凌晨发生大量的访问行为且转化率较低,那么就需要适当提高对应账户的风险等级。可以采用类似于上述算法,然后辅以一定的业务知识来综合判断行为的风险情况。
此类方法的优点是不需要标记正负样本,而且检测到的异常行为还可以沉淀到规则系统中;缺点是特征设计和提取的工作量大,需要在所有可能的风险维度下刻画行为特征。
除了上述方法外,类似于多媒体数据处理、图计算模型等方法也逐渐被用来处理反作弊问题。
此外,在实际应用中,上述几种方法并不是完全割裂的,有可能一个完整的反作弊系统会同时使用所有方法。而且,除了算法理论方面的工作外,在算法实现方面我们还会遇到很多问题,因此算法的实际应用工作也是十分重要的。这部分工作主要分为以下两个方面:
(1)离线反作弊系统
离线反作弊系统主要包含规则判断、分类识别、异常检测等模块,通过历史行为和业务规则的沉淀,来判断未来行为的作弊情况。其优点是准确率较高,所使用的历史数据越多,判断结果越准确;缺点是时效
性较差,无法及时给出判断结果。
(2)实时反作弊系统
随着在某些场景下对时效性要求的不断提高,人们逐渐发现实时反作弊系统的必要性和重要性。所以,将离线中的许多规则和算法进行总结,在基本满足准确率和覆盖率的前提下抽取出其中计算速度较快的部分,以此来满足对实时性的要求。但是要求高的实时性可能要以一定的准确率为代价,而且由于数据需要进行实时采集和计算,所以对数据存储和计算系统的性能要求也非常高。

通过对现有的作弊以及反作弊相关内谷的介绍,我们可以看到一领域的很多问题暂时未得到解决,未来还面临着诸多挑战。比如:
(1)作弊手段的多样性和多变性
随着黑产公司的规模化和“正规”化,作弊与获利手段的多样性多变性越来越明显,而反作弊系统如何能更及时地发现识别出新的手沌和灰色利益链条,这是挖掘算法所面临的一个重要挑战。
(2)算法的及时性和准确性
由于普通用户的隐私和安全意识越米越强,所以反作弊系统的准确性和及时性要求越来越高,不仅要尽可能减少误判的情况,还需要及时发现真正的作弊行为,在给用户造成更大的损失之前对其实施有效的控制措施。
(3)数据及作弊手段的沉淀和逆向反馈
随着反作弊系统的升级改造,算法工程师无论在业务还是算法上都积累了相当多的数据和经验,如何将这些作弊手法以及反作弊手段进行通用性的沉淀,以及高效地逆向反馈到新的反作弊系统中,保证算沄能紧跟市场脚步,也是反作弊工程师需要考虑的重要问题。
大数据时代为人们带来了丰富的基础数据和应用方式,也对信息女全提出了更高的要求,相信数据挖掘领域的不断发展能为这一万面的工作带来创新和突破。

来源丨摘自《大数据之路:阿里巴巴大数据实践》

相关电子书

大数据之路:阿里巴巴大数据实践pdf电子书

![大数据之路:阿里巴巴大数据实践.jpg][1] > 作者: 阿里巴巴数据技术及产品部 > 出版社: 电子工业出版社 > 出品方: 博文视点 > 副标题: 阿里巴巴大数....

本文来自投稿,不代表本站立场,如若转载,请注明出处:http://zuopm.com/data/1166.html
-- 展开阅读全文 --
阿里巴巴大数据系统体系概述
« 上一篇 02-17
如何用数据解决实际问题epub高清电子书
下一篇 » 02-17

发表评论

成为第一个评论的人

作者信息

广告

热门文章

标签TAG

热评文章