您现在的位置:上葡京网址公司新闻 > 海燕线缆党员参加滨海新区中小企业协会党支部红色教育实践活动

海燕线缆党员参加滨海新区中小企业协会党支部红色教育实践活动

浏览次数: 日期:2018年9月3日 09:14

导语:在任何一个基于机器学习的自然语言处理(nlp)流水线中

本文为ai研习社编译的技术博客,原标题:

movingbeyondthedistributionalmodelforwordrepr

作者|  tanaygahlot

翻译|  乔叔叔

校对|酱番梨    整理|菠萝妹/https-medium-com-tanaygahlot-moving-beyond-the-distributional-model-for-word-representation-b0823f1769f8从语言学角度看词嵌入模型在任何一个基于机器学习的自然语言处理(nlp)流水线中,词的向量化是其中典型的一个步骤,因为我们不能直接给计算机“喂单词”。在词的向量化过程中,我们为一个单词指定一个n维的向量,用来表示它的词义。结果,这成了处理过程中最为重要的一个步骤之一,因为一个“坏的”表示会导致失败以及为接下来的nlp任务带来不愿看到的影响。

在词向量化的最常用的技术之一就是词的分布式表示模型。它基于的一个假设是一个词的意思能够从它所在的上下文中推断出来。大部分深度学习论文使用基于该分布式理论而来的词向量,因为它们是“任务普适”(它们不是针对特定任务)而且“语言普适”(它们不是针对特定语言)。不幸的是,分布式方法并不是词向量化任务的魔效武器。在本博文中,我们会指出这个方法的一些问题并提供一些潜在的,以改善词向量化的过程。分布式表示模型有以下的问题,让人感觉非常痛苦:

罕见词:对于在语料中出现频率较低的词,它们无法通过分布式表示学习得到一个很好的表示。

多义混同:它们将一个词的所有词义混成一个表示。例如,单词“bank”,在英文中可以指“河岸”或者是“金融机构(银行)”。分布式模型却将所有的这些词义混合在一个表示中。

形态缺失:在表示学习的时候,它们并没有考虑一个单词多种形态。比如,“evaluate”和“evaluates”具有相似的意思,但是分布式表示模型却将它们视为两个不同的单词。(译者注:在英语中,一个单词可能有多种形态,特别是动词,有时态、人称、主动被动等对应的不同形态。在本例中evaluates是evaluate的第三人称单数的一般现在时的形态。)

幸运的是,为了解决这些问题,大家进行了非常广泛的研究。大致上,这些解决办法可以分为3个主要类别。我们将会按照下面的顺序一一介绍:

形态敏感嵌入

在词嵌入中,将语言或功能约束进行增强。  形态敏感嵌入这些技术在学习词嵌入的时候,将词的形态进行了考虑。fasttext就是这种技术的一个典型代表。它将一个单词表示成了n-grams(n元模子)字符的汇总。例如单词where就可以表示成。每个n-gram字符被指定一个向量,这个向量接下来会被用来计算上下文向量与目标向量匹配度的分值:在使用这种方法(下表的sisg)对一些词汇形态丰富的语言,比如德语(de)、法语(fr)、西班牙语(es),俄语(ru)和捷克语(cs),进行语言建模的时候,经评估,相较于没有使用预训练词向量的lstm,以及使用了预训练词向量却没有相关词根信息的lstm模型(下表的sg),效果都有了改善。而且,既然fasttext将单词表示为n元字符(n-gram)的组合,因此它就能为那些语料库中从来没有出现过的词提供嵌入。在一些领域如生命科学领域,由于词汇表非常有限(长尾现象),语料中大部分的单词都归入到未知类别中,该技术就显得尤其有用。

morphfittin。

虽然这一切看起来很轻巧,但是价值500亿美元的无人机产业核心

导语:一声哨响,物联网进入中场,物联网平台厂商都在做什么?雷锋网按:2018年12月20日,雷锋网将在深圳会展中心举办一场「aiot+智慧城市峰会」。在峰会前期,我们会对aiot和智慧城市领域的公司进行