McRank:一种基于多分类和梯度提升树的排序学习
McRank是学习排序(Learning to Rank)的单文档排序分支(Pointwise)中较为经典的一种,本文是读原Paper[1]之后自己的一个理解.
基本介绍
McRank
的全称是Multiple Classification Rank
,可以理解为将学习排序转为机器学习中的一个多分类问题.McRank
对DCG
指标进行优化,并且可以证明DCG
的误差可以被分类误差给bounded
住.
折损累积增益
DCG
(Discounted Cumulative Gain)是在信息检索领域评估一个rank
好坏的常用指标。(在实际使用中一般会进行归一化,称为NDCG
,可以看这里).
假设在指定的query
下通过某个排序算法对$n$个文档进行排序,则可以得到
$$DCG=\sum_{i=1}^{n}c_{[\pi_i]}(2^{y_i}-1)$$