推荐系统的多目标优化(2)-ESM2

Elaborated Entire Space Supervised Multi-task Model

Posted by weber on May 2, 2020

论文:Conversion Rate Prediction via Post-Click Behaviour Modeling,CoRR,2019,阿里

目录: [toc]

1. 提出背景

精准全空间监督多任务模型(Elaborated Entire Space Supervised Multi-task Model,ESM2)是在ESMM的基础上的改进。对于CVR预估来说,ESMM仍面临一定的样本稀疏问题(从点击到购买的样本非常少)。

ESM2挖掘用户行为,发现用户在购买前往往会有其他的行为,比如把想要购买的物品加入购物车或者心愿单。如图所示:

image-20200428081432979

  • 图(a)表示用户click到buy的部分行为路径;

  • 图(b)将行为路径进行分类:Cart(10%),Wish(3.5%),Other(87%)。注意Cart和Wish是有重叠路径的,所以总和大于100%。Other Action是指除了Cart和Wish的其他行为;
  • 图(c)将图(b)进行了汇总:Cart和Wish统称为Deterministic Action。

相较于直接学习 click->buy (稀疏度约2.6%),可以通过Action路径将目标分解,以Cart为例:click->cart (稀疏度为10%),cart->buy(稀疏度为12%),这样解决了CVR稀疏的问题,从而可以通过分解路径,建立多任务学习模型来分步求解CVR模型。

2. ESM2模型

image-20200428083102667

精准全空间监督多任务模型(Elaborated Entire Space Supervised Multi-task Model,ESM2)结构如图,横向分为三个模块:共享嵌入模块(Shared Embedding Module,SEM),分解预测模块(Decomposed Prediction Module,DPM),序列组合模块(Sequential Composition Module,SCM)。纵向分为4个子任务。

这里没有建模 Click->OAction,因为它与 Click->DAction 是对立事件。

2.1 Shared Embedding模块

与ESMM相同,ESM2把四个子任务的embedding层向量共享。文中给出了特征细节:

  • user特征:ID,年龄。性别,购买力等。
  • item特征:ID,价格,累积CTR,累积CVR等。
  • user-item特征:用户的历史行为偏好。

连续特征:文章初始使用了连续特征离散化的处理方式,实验阶段发现连续特征使用先标准化再tanh(归一到 (-1,1) 的效果更好。

emb维度:实验中通过grid search,确认为128维。

2.2 Decomposed Prediction模块

每个子任务都使用一个独立的MLP来对子任务建模。

MLP单元数:[512,256,128,32,2]

激活函数:前面ReLU,最后Sigmoid

Dropout:0.5

2.3 Sequential Composition模块

序列组合模块是将各个子任务的预测结果组合起来,获得多目标的损失。

图中有三个红点,表明有三个显式训练的loss。

  • loss1:根据ctr标签,显式训练 Impression->Click
  • loss2:根据ctavr标签,显式训练 Click -> DAction
  • loss3:根据ctcvr标签,显式训练 Impression ->…-> Buy

2.4 损失函数

最终的联合损失为:

可以看到,在损失部分ESM2给出了更多的trick细节,可以通过权值来控制不同部分的损失。

3. 实验结果

3.1 实验数据

ctr:6%; cvr:1%;Click->Action:12%;Acton->Buy:9%

数据比例提升了9倍。

image-20200428090605724

3.2 实验结果

离线

作者主要评估了 AUC,GAUC 和 recall,precision,F1(top@1%表示认为前1%为正样本)

image-20200428091531459

image-20200428091454142

在线

横轴表示以GBDT为baseline,其他模型相较于GBDT的提升。

image-20200428091918781

4. 思考

  1. ESM2是对ESMM的扩展,给出了更多ESMM没有给出的细节,并给出了更全面的实验论证,为实践提供了更好的指导。
  2. ESM2还是源于对业务的深入挖掘,从业务分析角度出发,解决cvr数据稀疏的问题,实际使用时还需要考虑自己业务的场景,对用户点击到转化的行为路径进行挖掘,看看是否有实践的可能性。