您现在的位置:上葡京网址公司新闻 > 海燕线缆党员参加滨海新区中小企业协会党支部红色教育实践活动

海燕线缆党员参加滨海新区中小企业协会党支部红色教育实践活动

浏览次数: 日期:2018年9月3日 09:14

导语:并不fancy,但非常practicable~雷锋网(公众号:雷锋网)ai科技评论按,本文作者吴海波,该文首发于知乎,雷锋网ai科技评论获其授权转载。

airbnb的real-timepersonalizationusingembeddingsforsearchrankingatairbnb一文拿了今年kddadstrack的最佳论文,和16年google的w&d类似,并不fancy,但非常practicable,值得一读。可喜的是,据我所知,国内一线团队的实践水平并不比论文中描述的差,而且就是w&d,国内也有团队在论文没有出来之前就做出了类似的结果,可见在推荐这样的场景,大家在一个水平线上。希望未来国内的公司,也发一些真正实用的paper,不一定非要去发听起来fancy的。

自从word2vec出来后,迅速应用到各个领域中,夸张一点描述,万物皆可embedding。在nlp中,一个困难是如何描述词,传统有one-hot、n-gram等各种方式,但它们很难表达词与词之间的语义关系,简单来讲,即词之间的距离远近关系。我们把每个词的embedding向量理解成它在这个词表空间的位置,即位置远近能描述哪些词相关,哪些词不相关。

对于互联网场景,比如电商、新闻,同样的,我们很难找到一个合适表达让计算机理解这些实体的含义。传统的方式一般是给实体打标签,比如新闻中的娱乐、体育、八卦等等。且不说构建一个高质量标签体系的成本,就其实际效果来讲,只能算是乏善可陈。类似nlp,完全可以将商品本身或新闻本身当做一个需要embedding的实体。当我们应用embedding方案时,一般要面对下面几个问题:

希望embedding表达什么,即选择哪一种方式构建语料

如何让embedding向量学到东西

如何评估向量的效果

线上如何使用

下面我们结合论文的观点来回答上面问题,水平有限,如有错误,欢迎指出。

希望embedding表达什么

前面我们提了embedding向量最终能表达实体在某个空间里面的距离关系,但并没有讲这个空间是什么。在nlp领域,这个问题不需要回答,就是语义空间,由现存的各式各样的文本语料组成。在其他场景中,以电商举例,我们会直接对商品id做embedding,其训练的语料来自于用户的行为日志,故这个空间是用户的兴趣点组成。行为日志的类型不同,表达的兴趣也不同,比如点击行为、购买行为,表达的用户兴趣不同。故商品embedding向量最终的作用,是不同商品在用户兴趣空间中的位置表达。

很多同学花很多时间在尝试各种word2vec的变种,其实不如花时间在语料构建的细节上。首先,语料要多,论文中提到他们用了800millionsearchclickssessions,在我们尝试embedding的实践中,语料至少要过了亿级别才会发挥作用。其次,session的定义很重要。word2vec在计算词向量时和它context关系非常大,用户行为日志不像文本语料,存在标点符合、段落等标识去区分词的上下文。

举个例子,假设我们用用户的点击行为当做语料,当我们拿到一个用户的历史点击行为时,比如是list(商品a,商品b,商品c,商品d),很有可能商品b是用户搜索了连衣裙后点的最后一个商品,而商品c是用户搜索了手机后点击的商品,如果我们不做区分,模型会认为b和c处以一个上下文。

具体的session定义要根据自身的业务诉求来,不存在标准答案,比如上面的例子,如果你要做用户跨兴趣点的变换表达,也是。

第三,融资时间增长。据观察,目前自动驾驶公司的融资时间基本维

导语:又一个锤子将被收购的谣言。

今日凌晨,有产业链消息人士@手机晶片达人在微博上爆料称,小米要收购锤子手机。手机晶片达人微博原文称:“业界传闻,小米要收购锤子手机!锤子