[奇新智能建设系统]从零到一建设推荐系统指南(4)

作者:安尼      发布时间:2021-04-23      浏览量:0
现在的推荐系统相当复杂,特别是在大规模的

现在的推荐系统相当复杂,特别是在大规模的应用场景中,例如今天的顶级Feed流、淘宝的推测你喜欢等,拥有非常复杂的推荐系统如何有效地将这些模型融入真正的系统?

一个比较复杂的推荐系统通常分为召回、排名、规则三个步骤。首先,召回用户感兴趣的内容,第二,为用户制作排名列表,第三,用规则解决产品、运营方面的需求。

1、召回

召回,即从大容量的内容中召回所有用户可能感兴趣的内容,以拥有大容量的内容为前提,内容不足时,无需构建复杂的推荐系统。因此,当有大量Item时,需要通过召回算法从不同类别的内容为用户生成他可能感兴趣的内容。例如,如果某个用户喜欢体育内容,也喜欢军事内容的话,第一步,无论使用什么样的模型,都希望为该用户产生体育、军事内容的效果。另一个用户可能喜欢美食和游戏。在召回阶段,我们希望通过模型为他生成与美食和游戏相关的内容。

回调阶段可能存在多种模式。经过召回阶段后,尽管生成了该用户可能感兴趣的内容,但这些内容并没有实际融合,处于混乱状态。

(1)标签

在各种算法中,最容易想到的是基于标签的方法。如图所示,左侧是基于人口统计学的推荐,右侧是基于内容标签的推荐。标签分为两类:一类是用户标签;二类是内容标签。

A、用户标签

用户标签。假设我们有一部分用户标签,知道每个用户的年龄、性别等信息,当某个年龄和某个性别的用户喜欢某个物品时,可以向同一年龄、性别等用户标签的其他用户推荐这个物品。

B、内容标签

与用户标签的思路相似,如果用户喜欢有内容标签的东西,可以推荐有相同标签的内容。

运营产生标签的优点:质量好,符合产品调整性的缺点:运营者自身偏见,人工费高,效率低。

用户产生标签的优点:数量大,节约成本,产生意外内容的缺点:产品形态支持,质量差,需要审查。

机器自动产生标签的优点:可自动运行的缺点:技术难易度高,效果无法控制。

将三种标签方式结合起来时会更有价值。我们看下图,生成的第一个内容标签是偷拍成功,第二个是学霸培养中,第三个是完美的侧脸,这三个标签是运营、用户、机器三者结合后制作的标签,这个标签是图像识别,客户在运营前写的标签

内容标签推荐的优缺点

标签推荐的优点是简单易行,可以理解。缺点如下:

第一,受标签质量影响较大。如果标签质量太差,标签粒度太粗,就不值得。

第二,标签产生者的个人偏差很大。标签的制作者受到自己的知识体系的限制,标签与用户的实际应用场景不一致。

第三,采用规则方法时规则量化不准确。例如,优惠券为什么不是1500元,而是1000元?这个数据是拍头定的。

第四,缺乏探索性和扩展性。只能选择标签化的内容。例如,动画片中有很多舞蹈。包括街舞、宅舞等。如果没有宅舞这个标签,这样的内容只能分为广场舞标签等其他标签,因此内容标签的推荐限于完整的分类系统。

(2)协同过滤

协同过滤是一种非常有效的推荐方法,最初应用协同过滤系统的设计是解决Xerox公司在PaloAlto上的信息过载问题。协同过滤简单来说,利用某个兴趣相投、有共同经验的团体喜好推荐用户感兴趣的信息,考虑的是共同出现,基础是物以类聚、人以群分的思想。

共同过滤在推荐效果上有明显提高,优点是

第一,利用他人的智慧,可以学习难以表现的概念(个人品味、文章质量等)。利用集团智慧帮助建立推荐系统。例如,用户看了a视频后,去看了b视频。用户这种潜意识的行为有助于建立ab视频的联系。

例如,品位是一种难以量化和标签化的东西,但通过合作过滤这种共同现金的方法,可以学习品味的概念。

第二,不需要事先建立标签系统,不需要花费大量标签的人力。

第三,可根据数据和反馈自动培训。该模型不断变化,不需要运营者反复看我的标签系统是否变化,是否重新标签,而是使用最新的数据进行模型训练。

第四,更好的规则变化,具有更大的探索性扩展性。因为所有的值都是机器学习的,不是拍头拍,而是客观的,有更大的探索和扩展性,很多你不知道的概念都是机器学习的。

同时,缺点也很明显。一个是冷启动的问题,合作过滤应用的是人与物的关系,如果物是新的人或新的物品,就很难解决。二个是稀疏的问题:系统历史数据太少,系统无法训练,很难找到正确的模检索匹配推荐。三是没有说明性。

(3)深入学习

随着技术的发展,从2012年开始,深入学习几乎被机械学习界反复讨论和研究。谷歌在2016年提出了基于深入学习的推荐模型,应用于YouTube的视频推荐场景。该模型利用深入的学习解决推荐问题,利用用用户的行为数据构筑推荐算法。

A、深入学习的目的之一:向量化

推荐系统实际上是匹配,人与物相匹配。看起来很难的推荐系统,其实也有简单的想法——人与物的匹配,向他推荐那个用户可能感兴趣的东西。从数学的角度考虑这个问题,怎么计算人和物的相似度呢?

在推荐领域,深入学习的目的之一是量化人和物的向量,将某人和某人学习成统一的表示方式,然后在这个统一的表示方式中计算该人和物的相似度,当人和物反映在同一个可比较的空间中时,根据计算结果

图1深度学习目的之一-向量化

将最终结果反映在这个二维平面图中,用户认为相似的内容反映在向量上,有内容向量后,用户反映在上图的某个地方

B、深度学习召回新文章

冷启动是算法部分经常遇到的问题,在冷启动阶段,数据比较稀疏,很难利用用用户的行为数据实现个性化推荐。冷启动的问题分为新内容的冷启动、新用户的冷启动。我们可以使用深入学习的方法,为每篇新文章的训练获得语义向量,实现新内容的个性化推荐。

图12深度学习召回新文章

这种模式不需要用户行为,只需要对用户文本进行分析,根据内容本身对每一篇文章产生向量。我们训练文章的语义向量,获得文章与文章之间的相似度,计算新文章与用户历史行为中的文章相似度,将新文章个性化分发给感兴趣的用户。

C、基于用户行为的深度学习召回模型

基于用户行为的深度学习召回模型将推荐问题视为一个(包括数百万种)的多分类问题,以某一瞬间用户的阅览序列为模型输入,预测下一瞬间用户可能阅览的内容。我们使用深度学习模式解决多分类问题,从数百万的可推荐内容中召回可能感兴趣的内容。

图13召回模型的神经网络结构

与合作过滤相比,深入学习召回模型更有利:

第一,更全面的行为表现。在模型中结合点击、收藏、搜索等多种行为,可以更全面地表达用户的行为喜好,这在协同过滤中是不支持的。

第三,考虑用户的行为顺序。例如,用户通常的行为顺序是先买手机,然后买手机壳。买车后买车垫。推荐顺序如果用户在购买手机外壳后推荐手机,逻辑就错了。

协同过滤没有序列关系的学习能力,将所有行为视为完全平等的关系,深度学习模型具有序列关系的学习能力,在整体模型的表现能力和调整方面非常前沿。

图14神策数据某电视推荐场景

以上是神策数据的顾客推荐的一部分结果,一个用户刚看完《小猪佩奇》第二季第一集,可以根据合作过滤发表《小猪佩奇》其他集,但是根据深度学习召回模型可以继续发表《小猪佩奇》第二季度、第三集等。

第四,组合复杂的特点。神经网络可以进行更复杂的特征组合,挖掘更深层次的关系。

2、排序

,即将召回的内容统一排序。排序过程实际上是评分各部分内容的过程,预测各用户对各内容的兴趣。

(1)GBDT。LR排序模型

图15GBDT。LR排序模型GBDT模型将GBDT模型与LR模型结合起来,将GBDT模型与特征分散和组合编码的过程可视为最终预测模型。

?GBDT????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????

(2)Wide&Dep排序模型

图16Wide&Deep排序模型

Widep模型包括Wide和Deeep两部分的结构。Wide部分使用的是LR模型,主要负责记忆,学习特征之间的关联性,生成的推荐结果与已有用户行为的直接相关的东西Deepp部分使用的是深度神经网络结构,主要负责泛化,学习新的特征组合,提高推荐的多样性。

Wide&Deep模型学习能力强,实施成本高,需要一定量的特点工程,对必要的训练数据量和机械要求高。当客户有大量的训练数据时,这种方法是一种非常有效的方法。

(3)DeepFM排序模型

图17DepFM引擎排序模型

DeepFM模型学习能力强,实施成本高,对必要的训练数据量和机械要求高。客户拥有大量的训练数据时,该方法不需要追加特征工程,是一种非常值得实验的方法。

相关阅读

从零到一建推荐系统指南(5)

智能运营案例介绍:每日一淘

iOS全埋点技术分析(1)

金融业数字化转型为MVP实践(上)

免费下载《从零到一建推荐系统指南》白皮书:

方式1:辞职工作者神策数据官方网站下载工作者工作者工作者工作者工作者工作者工作者工作者工作者工作者工作者工作者工作者工作者工作者工作者工作者工作者工作者工作者工作者