首页 科技 正文

谷歌人工智能研究人员制作的最新的变压器模型是学习自然语言处理的必备工具

萧箫 发自 凹非寺量子位 报道 | 公众号 QbitAI

可高效措置长文本的模子Longformer、和可谓“升级版”Transformer的BigBird模子,到底有甚么区分?

Transformer的其他各类变体(X-former)到底都长甚么样、又有哪些新利用?

由于Transformer模子的成长速度日新月异,一天一个样,哪怕是隔段时候回来研究,模子可能也已多了良多。

Transformer模子,是谷歌在2017年推出的NLP经典模子(Bert就是用的Transformer)。在机械翻译义务上,Transformer显露逾越了RNN和CNN,只需要编/解码器就可以到达很好的后果,可以高效地并行化。

好消息是,这里有一篇Transformer模子的“最新动向”,它集中切磋Transformer新模子对自留意力机制(Self-attention)的改良,并对这些模子进行比较。

别的,还有模子在NLP、较量争论机视觉和强化进修等各个范畴的最新利用。

标准Transformer模子

起首来看看,标准的Transformer模子是甚么样的。

Transformer的焦点部分,是右侧的两个黑色实线框圈起来的两部分,左侧是编码器(Encoder),右侧是解码器(Decoder)。

可以看见,编/解码器主要由两个??樽楹铣桑呵袄∩窬占ㄍ贾欣渡牟糠郑┖土粢饬疲ㄍ贾忻岛焐牟糠郑?,解码器平居多一个(交叉)留意力机制。

Transformer最主要的部分,就是留意力机制。

通俗来讲,留意力机制在图象措置中的利用,是让机械“像人一样稀奇留意图象的某个部分”,就像我们在看图时,平居会“稀奇存眷”图中的某些处所。

这个中,自留意力机制是界说Transformer模子特点的关头,个中一个重点坚苦就在于它的时候复杂度和空间复杂度上。

由于留意力机制直接将序列(sequence)两两较量,致使较量争论量伟大年夜(较量争论量酿成O(n))。

比来,大年夜量论文提出了新的Transformer“变种”,它们的根蒂目标都是加速模子的效率,但假如一篇篇去看,可能有点眼花纷乱。

为此,Google AI的研究人员专程清算了一篇Transformer模子的成长论文,细心讲授它们的出处。

“变种”后的Transformer模子

2种分类方式

按利用方式来分类的话,Transformer模子可以分成以下3类:

只用编码器:可用于分类只用解码器:可用于措辞建模编码器-解码器:可用于机械翻译

但假如按这些变种的提高效率的道理,也就是“高效方式”来分类,那末Transformer模子的这些“变种”则可以被分成以下几类:

Fixed Patterns(固定模式):将视野限制为固定的预界说模式,例如局部窗口、固定步幅块,用于简化留意力矩阵;Learnable Patterns(可进修模式):以数据驱动的体式格局进修会见模式,关头在于一定token相干性。Memory(内存):行使可以一次会见多个token的内存???,例如全局存储器。Low Rank(低秩):颠末历程行使自留意力矩阵的低秩近似,来提高效率。Kernels(内核):颠末历程内核化的体式格局提高效率,个中核是留意力矩阵的近似,可视为低秩方式的一种。Recurrence(递归):行使递归,毗邻矩阵分块法中的各个块,究竟提高效率。

可以看见,近期Transformer相干的研究都被分在上面的图象中了,异常清楚清楚明晰。

体会完分类方式后,接下来就是Transformer模子的各类变体了。

17种经典“X-former”

1、Memory Compressed Transformer(2018)

这是让Transformer能更好地措置长序列的初期考试考试之一,主要点窜了两个部分:定位局限留意、内存紧缩留意。

个中,前者旨在将输入序列分为长度类似的???,并在每一个部分中运行自留意力机制,如许能包管每一个部分的留意力成本不变,激活次数就可以按照输入长度线性缩放。

后者则是接纳跨步卷积,削减留意力矩阵的大小、和留意力的较量争论量,削减的量取决于跨步的步幅。

2、Image Transformer(2018)

这是个受卷积神经收集开导的Transformer变种,重点是局部留意局限,行将接管域限制为局部范畴,主要有两种方案:一维局部留意和二维局部留意。

不外,这类模子有一个限制前提,即要以失落去全局接管域为价值,以下降存储和较量争论成本。

3、 Set Transformer(2019

这个模子是为解决一种非凡利用处景而生的:输入是一组特点,输出是这组特点的函数。

它行使了稀少高斯历程,将输入集大小的留意复杂度从二次降为线性。

4、Sparse Transformer(2019)

这个模子的关头思惟,在于仅在一小部分稀少的数据对上较量争论留意力,以将密集留意力矩阵简化为稀少版本。

不外这个模子对硬件有所要求,需要自界说GPU内核,且没法直接在TPU等其他硬件上利用。

5、Axial Transformer(2019)

这个模子主要沿输入张量的单轴施加多个留意力,每一个留意力都沿特定轴夹杂信息,从而使沿其他轴的信息贯穿连接自力。

由于任何单轴的长度平居都比元素总数小很多,是以这个模子可以显著地节省较量争论和内存。

6、Longformer(2020

Sparse Transformer的变体,颠末历程在留意力模式中留有空地、增加感到感染野来实现更好的长途笼盖。

在分类义务上,Longformer接纳可以会见所有输入序列的全局token(例如CLS token)。

7、Extended Transformer Construction(2020)

一样是Sparse Transformer的变体,引入了一种新的全局本地留意力机制,在引入全局token方面与Longformer类似。

但由于没法较量争论因果掩码,ETC不克不及用于主动回归解码。

8、BigBird(2020)

与Longformer一样,一样利用全局内存,但分歧的是,它有怪异的“内部变压器机关(ITC)”,即全局内存已扩大为在sequence中包孕token,而不是简单的参数化内存。

然则,与ETC一样,BigBird一样不克不及用于主动回归解码。

9、Routing Transformer(2020)

提出了一种基于聚类的留意力机制,以数据驱动的体式格局进修留意力稀少。为了确保集群中的token数量类似,模子会初始化聚类,较量争论每一个token相对聚类质心的距离。

10、Reformer(2020)

一个基于局部敏感哈希(LSH)的留意力模子,引入了可逆的Transformer层,有助于进一步削减内存占用量。

模子的关头思惟,是周围的向量应获得类似的哈希值,而远距离的向量则不应获得类似的哈希值,是以被称为“局部敏感”。

11、Sinkhorn Transformer(2020)

这个模子属于分块模子,以分块的体式格局对输入键和值进行从头排序,并利用基于块的局部留意力机制来进修稀少模式。

12、Linformer(2020)

这是基于低秩的自留意力机制的高效Transformer模子,主要在长度维度上进行低秩投影,在单次转换中按维度夹杂序列信息。

13、Linear Transformer(2020)

这个模子颠末历程利用基于核的自留意力机制、和矩阵产物的联系关系特点,将自留意力的复杂性从二次下降为线性。

今朝,它已被证实可以在根基贯穿连接猜测性能的环境下,将推理速度提高多达三个数量级。

14、Performer(2020)

这个模子行使正交随机特点(ORF),接纳近似的方式避免存储和较量争论留意力矩阵。

15、Synthesizer models(2020)

这个模子研究了调理在自留意力机制中的感化,它合成了一个自留意力???,近似了这个留意权重。

16、Transformer-XL(2020)

这个模子利用递归机制链接相邻的部分?;诳榈牡莨榭杀皇游肫渌嵘痰氖忠照坏姆绞?,由于它没有清楚稀少密集的自留意力矩阵。

17、Compressive Transformers(2020)

这个模子是Transformer-XL的扩大,但分歧于Transformer-XL,后者在跨段移动时会丢弃畴昔的激活,而它的关头思惟则是贯穿连接对畴昔段激活的细粒度记忆。

整体来讲,这些经典模子的参数量以下:

更具体的解读(包孕具体的模子参数等),和对Transformer将来趋向的猜测,可以看整篇论文。

论文一作Yi Tay,硕士和博士均卒业于新加坡国立大年夜学较量争论机科学。

非特殊说明,本文由原创资讯网原创或收集发布。

转载请注明本文地址:http://www.matlabfan.com/kj/1293.html

国产亚洲日韩在线播放不卡,亚洲欧美国产综合在线一区,中文字幕亚洲无线码a
<蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>