谷歌今天开放了自然语言理解软件SyntaxNet的源代码,将其作为该公司TensorFlow开源机器学习库的一部分。这款软件可以用于自动分析语句含义,而此次公布的包括训练新模型的代码,以及英语文本分析的预训练模型。
谷歌表示,这个名为Parsey McParseface的句法分析程序可以自动判断某个单词是名词、动词还是形容词,它是目前全球同类程序中准确度高的一款,甚至可以与人类语言学家媲美。
这种技术在自然语言研究领域拥有极其重要的意义。但对谷歌本身而言同样意义重大。
“我们内部评估技术的方法非常不同。我们不太关心基准,更加关心对下游系统性能的影响。我们的目标是改善用户体验。”谷歌研究院产品经理戴夫·奥尔(Dave Orr)说。
与TensorFlow一样,SyntaxNet主要使用C++执行。它现在实现了开源,使得外部程序员也可以对其加以改进,从而帮助该公司寻找新的人才并改进产品。整体而言,语句分析与产品评论有关,包括应用评论以及餐馆和购物点评,这项技术与互联网搜索和Google Now On Tap功能也有关系。
“这非常重要,因为语言有的时候很微妙,未必能直接理解人们的意思,有些内容与上下文关系很紧密。”谷歌研究院团队主管塔尼亚·拜德拉克斯-维斯(Tania Bedrax-Weiss)说。
奥尔表示,与传统的机器学习算法相比,深度学习技术在语言理解方面更加擅长。这种方法通常需要通过大量数据对人工神经网络进行训练,然后让其对新数据进行推断。谷歌还将深度学习技术用于图片识别和语音识别。事实上,神经网络是SyntaxNet的关键所在,该项目的开发代号为“神经官能症”(neurosis)。