皇冠注册平台

www.ipfs8.vip)是FiLecoin致力服务于使用FiLecoin存储和检索数据的官方权威平台。IPFS网实时更新FiLecoin(FIL)行情、当前FiLecoin(FIL)矿池、FiLecoin(FIL)收益数据、各类FiLecoin(FIL)矿机出售信息。并开放FiLecoin(FIL)交易所、IPFS云矿机、IPFS矿机出售、租用、招商等业务。

,

选自arXiv

作者:Lingfei Wu等

机械之心编译

编辑:Panda

在 Transformer 推动自然语言处置领域迅猛生长的当下,基于图神经网络的 NLP 研究也不容忽视。在克日的一篇综述论文中,来自京东硅谷研发中央、伦斯勒理工学院、浙江大学等机构和高校的研究者首次对用于 NLP 的图神经网络(GNN)举行了周全综述。其中涵盖大量相关和有趣的主题,如用于 NLP 的自动图构建、图示意学习和种种先进的基于 GNN 的编码器 - 解码器模子以及种种 NLP 义务中的 GNN 应用。本文配合一作为吴凌飞(京东硅谷研发中央)与 Yu Chen(伦斯勒理工学院)。

7月8日,机械之心最新一期线上分享约请到陈宇博士带来本篇综述的详细解读。详情见文末。

论文地址:https://arxiv.org/pdf/2106.06090.pdf

在解决自然语言处置(NLP)领域的各式问题时,深度学习(DL)已经成为当今的主导方式,尤其是当操作大规模文本语料时。传统的典型方式是将文本序列视为一组 token,好比 BoW(词袋)和 TF-IDF。随着最近词嵌入手艺的乐成,NLP 义务通常会将句子示意成 token 序列。因此,循环神经网络(RNN)和卷积神经网络(CNN)等常用深度学习手艺已经在文本序列建模方面获得了普遍应用。

然则,对于大量林林总总的 NLP 问题,图结构才是最好的示意方式。举个例子,使用文本序列中的句子结构信息(好比依存关系和结组成本剖析树),可通过整合特定于当前义务的知识来为原始序列数据提供增补。类似地,序列数据中的语义信息(好比摘要寄义示意图和信息抽取图等语义剖析图)也可用于增补原始序列数据。因此,这些图结构的数据可以编码实体 token 之间成对的关系,进而可用于学习信息更厚实的示意。

遗憾的是,在欧几里得数据(如图像)或序列数据(如文本)上具有推翻性能力的深度学习手艺却无法直接应用于图结构数据,这是由于图数据对照庞大,涉及到结构不规则和节点近邻数据巨细纷歧致等情形。因此,这激起了图深度学习的研究浪潮,尤其是图神经网络的生长。

这波位于图深度学习和 NLP 交集处的研究浪潮已经影响到了大量 NLP 义务。在开发差其余 GNN 变体以及将它们用于许多 NLP 义务(包罗分类义务、关系抽取和天生义务)上,研究社区兴趣粘稠而且已经取得了一些乐成。只管有这些乐成的研究案例,但用于 NLP 的图深度学习研究依旧面临着许多挑战:

若何将原始文本序列数据自动转换成高度结构化的图结构数据?这是 NLP 领域的一个重大问题,由于大多数 NLP 义务使用的初始输入都是文本序列。为了将图神经网络用于 NLP 问题,一概略害步骤是基于文本序列来自动构建图,进而行使其底层的结构信息;

若何确定该使用哪种合适的示意学习手艺?图包罗无向图、有向图、多关系图和异构图等差异形式,因此为了学习差异图结构数据的特有特征,使用针对详细情形专门设计的 GNN 是至关主要的;

若何有用地建模庞大数据?这是一个主要的挑战,由于许多 NLP 义务都涉及到学习基于图的输入和其它高度结构化输出数据(好比序列、树以及差异类型的图数据)之间的映射关系。

这篇综述首次周全总结了用于自然语言处置的图神经网络。作者示意,这篇综述对机械学习和 NLP 社区而言都是符适时宜的。其中涵盖了普遍的相关主题,包罗用于 NLP 的自动图构建、用于 NLP 的图示意学习、用于 NLP 的基于种种高级 GNN 的编码器 - 解码器模子(如 graph2seq、graph2tree 和 graph2graph)以及 GNN 在种种差异 NLP 义务中的应用。

在篇幅长达 127 页的论文中,研究者做出了以下主要孝顺:

文中为用于 NLP 的 GNN 提出了一种新的分类法,其沿图构建、图示意学习和基于图的编码器 - 解码器模子三大主轴对当前相关研究举行了系统性的归纳组织;

本文为用于种种 NLP 义务的当前前沿的 GNN 方式举行了最周全的汇总。文章详细地形貌了基于领域知识和语义空间的种种图构建方式、用于种种差异种其余图结构数据的图示意学习方式、使用差异输入和输出数据类型组合的基于 GNN 的编码器 - 解码器模子。文中也给出了需要的对照;

文中先容了大量行使 GNN 的 NLP 应用,包罗若何使用 GNN 在三大组件(图构建、图示意学习和嵌入初始化)中解决 NLP 义务并会提供对应的基准数据集、评估指标和开源代码;

文章最后还列出了为 NLP 义务充实使用 GNN 方面的种种突出难题,另外还讨论并建议了能发生厚实功效的未经探索的研究偏向。

这篇综述提出的分类法如下图 1 所示,其对用于 NLP 的 GNN 举行了系统性的组织归纳并将其分为三大偏向:图构建、图示意学习和编码器 - 解码器模子。另外也涵盖相关应用。

图 1:文章提出的分类方式。

下面将简要先容论文的焦点内容框架,详情请参阅原论文。

用于自然语言处置的基于图的算法

本节首先将驻足于图来先容 NLP 问题,然后会简要先容在解决 NLP 问题方面一些代表性的传统图方式。

从图的角度看待自然语言处置

我们示意自然语言的方式反映了自身看待自然语言的方式,也因此对我们处置和明白语言的方式有基个性的影响。一样平常来说,示意自然语言的方式有三种。

最简朴的方式是将自然语言示意成一组 token。这种看待自然语言的方式完全忽视了 token 在文本中的特定位置,只思量了差异 token 在文本中泛起的次数。

一种更自然的方式是将自然语言示意成 token 序列。这是人类通常讲述和誊写自然语言的方式。

第三种方式是将自然语言示意成图。图在 NLP 中无处不在。只管将文本视为序列数据可能是最显而易见的方式,但在 NLP 社区,将文本示意成林林总总的图是由来已久的操作。文本或天下知识的常见图示意包罗依存关系图、结组因素图、AMR 图、IE 图、词汇网络和知识图谱。此外,文本图的元素也可以包罗多个层级,好比文档、段落、句子和词。

相比于前两个角度,从这个角度看待自然语言能够捕捉到更厚实的文本元素关系。许多传统的基于图的方式(好比随机游走、标签流传)已经在一些挑战性的 NLP 问题上获得了乐成应用,包罗词义消歧、名称消歧、共指消解、情绪剖析和文本聚类。

用于自然语言处置的基于图的方式

本节将先容种种已乐成应用于 NLP 应用的基于图的经典算法。

随机游走算法:随机游走这类基于图的算法会在图中发生随机路径。在一次随机游走收敛之后,可获得图中所有节点之上的一个平稳漫衍;

图聚类算法:常见的图聚类算法包罗谱聚类、随机游走聚类和最小切割(min-cut)聚类;

图匹配算法:图匹配算法的目的是盘算两个图的相似度;

标签流传算法:标签流传算法(LPA)是一种半监视的基于图的算法,其可将标签从已标注的数据点流传到之前未标注的数据点。

图神经网络

图神经网络(GNN)是一类直接基于图结构数据运作的现代神经网络,本节将先容 GNN 的基础知识和基本方式。

基础知识

图神经网络本质上就是图示意学习模子,可应用于以节点为中央的义务和以图为中央的义务。GNN 可学习图中每个节点的嵌入并将节点嵌入聚合起来获得图嵌入。

图过滤并不改变图的结构,但会优化节点嵌入。可通过堆叠多层图过滤层来天生最终的节点嵌入。

方式

图过滤:图过滤器有多种实现方式,它们可大致分为基于谱的图过滤器、基于空间的图过滤器、基于注重力的图过滤器和基于循环的图过滤器。从看法上讲,基于谱的图过滤器基于谱图论(spectral graph theory),而基于空间的方式会使用图中空间上相近的节点来盘算节点嵌入。某些基于谱的图过滤器可以转换成基于空间的图过滤器。基于注重力的图过滤器的灵感来自于自注重力机制,其会为差其余近邻节点分配差其余权重。基于循环的图过滤器会引入门控机制,模子参数在差其余 GNN 层共享。

新2手机管理端

新2手机管理端(www.22223388.com)实时更新发布最新最快的新2代理线路、新2会员线路、新2备用登录网址、新2手机管理端、新2手机版登录网址、新2皇冠登录网址。

图池化:图池化层的设计目的是为以图为中央的下游义务天生图层面的示意,好比基于从图过滤学习到的节点嵌入来执行图分类和展望。这是由于所学习到的节点嵌入对以节点为中央的义务来说是足够的,然则以图为中央的义务则需要图的整体示意。为此,我们需要归纳总结节点嵌入信息和图结构信息。图池化层可分为两大类:平式图池化(flat graph pooling)和分层式图池化。平式图池化会直接从节点嵌入一步到位地天生图层面的示意。相对而言,分层式图池化包罗多个图池化层,而且每个池化层都在一些叠放的图过滤器之后。本节简要先容了一些代表性的平式池化层和分层式池化层。

用于自然语言处置的图构建方式

前一节先容了当输入为图时的 GNN 基础知识和基本方式。不幸的是,对于大多数 NLP 义务而言,输入一样平常并不是图,而是文本序列。因此,为了行使 GNN,基于文本序列来构建用作输入的图就成了一个必须的步骤。本章将重点先容两大类用在种种 NLP 义务中构建图结构输入的图构建方式,即静态图构建和动态图构建

表 2:两种主要的图构建方式:静态和动态图构建。

静态图构建

静态图构建方式的目的是在预处置阶段构建图结构,其通常使用的是已有的关系剖析工具(好比依存关系剖析)某人工界说的规则。从看法上讲,静态图会整合隐藏在原始文本中的差异领域 / 外部知识,这能在原始文本的基础上增补厚实的结构化信息。

图 6:相似度图构建的一个示例。使用句子作为节点并使用 TF-IDF 向量来初始化它们的特征。

动态图构建

虽然静态图构建在将数据的先验知识编码进图结构方面有优势,但也存在一些局限性。首先,为了构建显示合理的图拓扑结构,需要大量人力和领域专业知识;其次,人工构建的图结构可能很容易失足(有噪声或不完整);第三,由于图构建阶段和图示意学习阶段是脱离的,以是在图构建阶段引入的误差无法获得校正,并可能累积到后续阶段,从而影响效果显示;最后,图构建历程的信息往往仅来自机械学习实践者的想法,而它们对下游而言可能并不是最优的。

为领会决上述难题,最近有的 NLP GNN 探索了动态图构建方式,这无需人类来提供领域专业知识。大多数动态图构建方式的目的都是凭证情形动态地学习图结构(即加权的毗邻矩阵),而且图构建模块可与后续的图示意学习模块团结优化,以端到端地方式解决下游义务。

如下图 10 所示,动态图确立方式通常包罗一个图相似度器量学习组件,其可凭证嵌入空间中每对节点的相似度来学习一个毗邻矩阵;另外另有一个图希罕化组件,其可从所学习到的全毗邻图提取一个希罕图。有研究发现,将自己固有的图结构与学习到的隐含图结构组合起来有助于实现更好的学习效果。此外,为了有用地团结执行图结构学习和表征学习,研究社区也提出了多种学习范式。

图 10:动态图构建的整体图示。虚线(左侧的数据点中)示意可选的自己固有的图拓扑关系。

用于 NLP 的图示意学习

本节将讨论用于种种 NLP 义务的直接操作结构化图的多种图示意学习手艺。图示意学习的目的是通过机械学习模子找到将图的结构和属性信息整合进低维嵌入中的方式。

一样平常而言,基于原始文本数据构建的图要么是同构的,要么就是异构的。

用于同构图的 GNN:GCN、GAT 和 GraphSage 等大多数图神经网络都是为同构图设计的,然则同构图并不适用于许多 NLP 义务;

用于多关系图的图神经网络:在实践中,许多图的边都有多种类型,好比知识图谱、AMR 图等,这样的图可以构建为多关系图形式;

用于异构图的图神经网络:在实践中,许多图的节点和边都有多种类型,这样的图被称为异构图。

基于 GNN 的编码器 - 解码器模子

在 NLP 领域,编码器 - 解码器架构是最常用的机械学习框架之一,好比 Seq2Seq 模子。由于 GNN 在建模图结构数据方面能力特殊,近期在开发基于 GNN 的编码器 - 解码器框架方面泛起了许多研究功效,包罗图到树(Graph-to-Tree)模子和图到图(Graph-to-Graph)模子。本节首先将先容典型的 Seq2Seq 模子,然后讨论用于差异 NLP 义务的基于差异图的编码器 - 解码器模子。包罗如下:

序列到序列模子

图到序列模子

图到树模子

图到图模子

图 11:基于图的编码器 - 解码器模子的整体架构,其中包罗 Graph2Seq 和 Graph2Tree。S_1 和 S_2 等节点示意子树节点,新的分支由此而生。

应用

这章将讨论使用 GNN 的许多差异类型的典型 NLP 应用,包罗自然语言天生、机械阅读明白、问答、对话系统、文天职类、文本匹配、主题建模、情绪分类、知识图谱、信息抽取、语义和句法剖析、推理和语义角色标注。下表 3 总结了所有应用的子义务和评估指标。

表 3:使用 GNN 的典型 NLP 应用和相关研究事情。

常见挑战和未来偏向

本章将讨论用于 NLP 的 GNN 的多种常见挑战,并会指出未来的研究偏向。

动态图构建:即便动态图构建方面已有一些研究功效,但 NLP 领域的大多数 GNN 应用依旧严重依赖领域专业知识来构建静态图。用于 NLP 的动态图构建依旧处于早期探索阶段,仍面临着许多挑战;

在 NLP 方面,GNN 与 Transformer 哪个更好:Transformer 依附其在许多 NLP 应用中的精彩显示而赢得了远远更多的研究关注。由于两类手艺各自都有相较于相互的显著优势,因此其中另有一些有趣的研究偏向值得探讨;

用于 NLP 的图到图模子:在为 NLP 义务使用图到图模子方面,还存在一些普遍性难题值得探索;

NLP 中的知识图谱:知识图谱已成为许多 NLP 义务的主要组件,但也存在许多挑战,涉及知识图谱增强、知识图谱嵌入和完成以及知识图谱对齐;

多关系图神经网络:只管希望颇丰,但由于图中存在多式多样的关系,因此解决超参数化问题依旧是一大挑战。

配合一作先容

吴博士同时现任IEEE影响因子最高期刊之一IEEE Transactions on Neural Networks and Learning Systems(TNNLS) 和 ACM SIGKDD 旗舰期刊 ACM Transactions on Knowledge Discovery from Data (TKDD) 的副主编。多次组织和担任国际顶级 *** 大会或者领域主席,如AAAI, IJCAI, KDD, NeurIPS, ICLR, ICML, ACL, EMNLP。

小我私人主页:https://sites.google.com/a/email.wm.edu/teddy-lfwu/home

陈宇博士现任Facebook AI硅谷总部的研究科学家。陈博士在2020年从美国伦斯勒理工学院取得盘算机科学博士学位,并获校优异博士学位论文奖及系优异研究生奖。当前研究偏向为机械学习和自然语言处置。其学术功效先后揭晓在NeurIPS, ICLR, IJCAI,NAACL,KDD等多个国际顶级 *** 上,并曾获AAAI DLGMA’20最佳学生论文奖。其研究功效被海内外多家媒体报道,包罗World Economic Forum, TechXplore等。

陈宇博士介入的DLG4NLP系列tutorial被NAACL’21,IJCAI’21,KDD’21,SIGIR’21等国际顶级 *** 任命。陈博士多次担任国际顶级 *** (如ACL,EMNLP,NAACL,IJCAI)和期刊(如TNNLS,TKDE,TASL,IJIS)的程序委员会成员和审稿人。陈博士是4项美国专利的发现人。

线上分享

北京时间7月8日19:00-20:00,论文配合一作陈宇博士将带来线上分享:基于图深度学习的自然语言处置:方式与应用。

今日济南新闻声明:该文看法仅代表作者自己,与今日济南新闻无关。转载请注明:新2手机管理端(www.22223388.com):首篇NLP领域图神经网络综述:127页,从图构建到现实应用面面观
发布评论

分享到:

新《xin》2会员网 wang[址(www.22223388.com):上映5天票房破〖po〗3亿,实力“碾压”好莱坞大片,《1921》稳居榜首
你是第一个吃螃蟹的人
发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。