Transformers长程上下文综述

字幕组双语原文:Transformers 长程上下文综述

翻译:雷锋字幕组(wiige)

职业生涯初期,科曼的他可谓一帆风顺,15岁就升入了一线队。

如果想在自己的项目中采用固定注意力核,可以查看OpenAI的blockparse库以及作者发布的配套示例。

课题引发的教育变革,学校最有发言权。上午,北京三里屯一中、北京市第十七中学、北京星河实验学校国美分校、润丰学校等参与课题实验的多所学校校长围绕“重塑课堂文化 创新教学深变革”“重塑团队文化 助推教师快成长”“重塑家校文化 打造育人全格局”三个主题展示成长与收获、分享心得与体会。聂延军、余清臣、吴晗清等与特级教师孙恒芳、马朝华、陶秀梅对实验校成果进行了精彩评点,专家们充分肯定了课题实验学校在课堂文化、团队文化、家校文化等方面取得的经验,希望各个学校持续发力,深化改革,进一步扩大影响。

经典自注意力带来的益处是,其高连通性使得信息在词符之间很容易传递——只需要一层注意力就可以聚合任意两个词符的信息。 但如果我们放宽这一约束,保证两层内信息可以在任意两个词符之间传递即可的话,就可以大幅降低按序列长度增长的复杂度。稀疏Transformer通过利用固定注意力模式的自定义核来实现这一目标。

据介绍,理想教育文化建设实践分享研讨会是京湘基础教育论坛的预热宣传会。本次研讨会之后,2020年京湘基础教育论坛将于11月18日以“深耕文化内涵,培育时代新人”为主题在北京市朝阳区举办。据悉,2018年湖南省教育厅与北京市朝阳区人民政府签署京湘两地教育合作框架协议,从七个方面深入推进京湘两地基础教育合作,深化两地经验成果交流共享,促进优质教育资源融通。首届论坛于2018年在北京市朝阳区举办,主题为“扎实推进高考改革,落实立德树人根本任务”;第二届论坛于2019年在湖南省长沙市举办,主题为“加强教师队伍建设,推进教育现代化”。作为京湘教育合作的“重头戏”,京湘基础教育论坛将京湘两地教育成果进行集中展现,取得了丰硕的成果。

当使用相对位置嵌入时,作者将式子改成如下形式:

王世元在总结发言中表示,教育不是育分,而是“育人”,教育的最终目的是要培养出具有“尊重、民主、责任、科学”核心素养的“最佳公民”。他希望,各课题学校能够在课改进入深水区的大背景下,主动适应时代新要求,进一步创新思路,扎实行动,让“理想教育文化”的步伐更稳健、更深入、更强劲,为立德树人的实践路径提供朝阳样本,真正推动新时代教育高质量内涵发展。

这是一个相当有趣的命运轮回。

亨利当初很年轻就加盟了尤文,后来尤文放走了他,然后他在阿森纳成为了传奇。”

杜启泓当天在一个电台节目里表示,病毒会不停改变,目前科学家对新冠病毒的认识只有数个月,难以评估将来疫苗的有效性,而市民是否需要频繁地接种疫苗,则需要收集更多数据进行研究。

将过去的记忆逐渐压缩成压缩记忆——图片由 DeepMind  博客提供

Transformer-XL通过强制进行分段串联来克服这一限制。 在第一段之后,后续段中的词符将始终保持512个词符的上下文尺寸,之前段的激活作为上下文传递给后续段的注意力操作。 这意味着来自NN上下文大小*LL层外的信息可以传播到一个给定的令牌。 假设上下文尺寸为640,模型有16层,理论上Transformer-XL可以纳入10,240个词符的信息。

当时的他,只有16岁8个月4天。这一上场纪录,打破了阿内尔卡创造的PSG队史最年轻球员出场纪录。

让我们向BERT-Base代入具体的数字来了解哪些项的开销占大头。 BERT-Base使用的序列长度为512,隐藏层大小为768,12个头,这意味着每个头的维度为64(768 / 12)。 在这种设置下,需要393216 floats(约1.5MB)(头12个*头大小64*序列长度512)来存储键和值,而存储所有头的注意力标量所需的空间为3145,728 floats (12*512*512)即约12MB的内存——几乎10倍于键存储的空间开销,这还仅仅是仅仅512个上下文词符。

典型的自回归设置下的自注意力连接模式。深蓝色方块代表 “查询(query)”,浅蓝色方块代表 “键(key)”

可以看到,稀疏Transformer的注意结构之所以有效,部分原因是因为这种注意力模式与真正习得的密集注意力并没有什么不同。 Kevin Clark, Urvashi Khandelwal, Omer Levy, 和 Christopher D. Manning在他们的 “What Does BERT Look At? An Analysis of BERT’s Attention”  一文中探究了密集注意力所习得的模式,试图弄明白注意力在Transformer模型中承载了什么功能。他们发现注意力头倾向于关注紧接在前的词符(类似于稀疏注意力中的局部注意力模式),以及如[SEP]和句号的特定词符。所以,也许稀疏Transformer的注意力模式中包含的归纳偏差是有用而非有害的。

其后的第二个赛季,科曼只在联赛中亮相过2次。两个赛季在一线队仅有三场登场,这对于任何一个想要提升的年轻人,都是无法接受。

2018年科曼又因为脚踝伤势错过了世界杯,无缘法国夺冠的荣耀时刻。

他1996年6月3日出生于巴黎,8岁就被巴黎圣日耳曼的球探发掘,成为了大巴黎少年队的一员。

注意力工作细探与实验结果

在本场欧冠决赛前,老帅卡佩罗就批评了尤文对像科曼这样的年轻球员没有耐心。

那一年的欧冠决赛,尤文和MSN领衔的巴萨遭遇,科曼在第89分钟替补老乡埃弗拉出场。

时至今日,不少尤文球迷都对这笔交易扼腕叹息。

例子: BERT习得的注意力模式

通过这些聚合索引来传递信息,网络就能够从较远的词符获取信息并利用长距离上下文,同时将时间和空间复杂度降低到O(n√n)。最重要的一点是,只需要两层隐藏层,任意词符就都可以整合来自其他词符的信息。

“科曼如今在拜仁也走上了相似的道路,当你看到一名球员的潜力时,你就必须要有耐心,你不能期待着一名年轻球员立即在最高水平的比赛中,成为主角。”

在他们的实验中,压缩记忆的尺寸为512,正常记忆尺寸为512,窗口尺寸为512,压缩率为2——意味着在压缩步骤中,最早的2个记忆状态将被压缩为1个状态。在这个设置下,他们在WikiText-103上实现了17.1的SOTA困惑度。

大巴黎被抢得人仰马翻,5分钟后才第一次过中场,9分钟半后才获得了射门机会。

下午,与会者现场观摩了润丰学校的一节物理课,对理想教育文化理念下的“合作·对话式课堂”有了更清楚、深刻的体会。接下来的圆桌对话环节,来自课题学校的负责人围绕“我眼中的合作·对话式课堂”纷纷发表意见,畅想自己理想中的课堂形态,并对未来课堂教学改革发展提出意见与建议。

巴黎终究没能“胜”日耳曼。

使用具有固定上下文大小的标准变换器,处理长输入时需要将输入分割成块(或称段)分别处理。然而,这种方法有一个局限,即前一段的信息与当前段的词符无关。 这种段独立性在某种程度上是有益的,因为它让我们能分批地有效处理每一段,但如果目标保持是长序列的一致性,这就会成为一个很大的限制。

欧冠决赛开始后,科曼所在的拜仁左路就成为了整个球队的进攻高速通道。

自适应窗口Transformer通过对序列进行遮罩,使每头习得的上下文之外的词符贡献迅速消失。 遮罩(M)与softmax操作的对数相乘,使某些词符对当前隐状态x的贡献归零,其中超参数R控制最小窗口(span)大小。

此外Transformer-XL论文还测量了有效上下文长度对困惑度的影响,并发现增大上下文长度至~900个词符时会产生更好的困惑度得分——这进一步证明了循环机制在实践中的有效性,而非仅仅停留于理论。

虽然他所效力的球队和对手都已物是人非,但是对手的前锋,还是内马尔。

他说,这份决议得来实属不易。某个国家固守单边主义立场,罔顾国际社会普遍呼声,出尔反尔,违背承诺,打破共识,导致决议磋商进程一拖再拖,安理会迟迟不能采取行动。该国还无视秘书长及各国呼吁,拒不解除对有关国家的单边制裁,在疫情形势下加重了无辜平民的苦难,加剧了有关国家和地区的人道主义危机。

DeepMind博客上的一个gif很好地说明了这个过程:

为鼓励模型只在有益的地方使用额外上下文,对习得的z值施加了ℓ1惩罚。

在拼抢激烈的德甲中,伤病阻碍了这个年轻人成为像里贝里那样的世界级巨星。

(a) 将查询的内容与键的内容相关联

然而,可变窗口大小在便于并行方面并不理想,我们通常希望密集的、尺寸规整的矩阵来实现最佳性能。虽然这种方法可以大幅减少预测时前向计算所需的flops数量,但作者只提供了模糊的性能估计,并表示自适应跨度的实现能够以2048个上下文词符的固定上下文大小模型的速度最高处理8192个词符  。 

张军强调,团结合作是战胜疫情最有力的武器,任何国家都不可能在孤立中让自己伟大。中方坚决反对将疫情政治化、污名化。转嫁责任挽救不了生命,更不

Transformer-XL还引入了一种新颖的位置编码方案,称为 “相对位置编码”。 不是简单地将内容和绝对位置嵌入的和输入网络,而是将每层的注意力操作分解为基于内容的部分和基于相对位置的部分——如果一个段中的第512个词符要关注第511个词符,它的相对位置嵌入就是-1。

为了避免存储所有段的激活,作者阻止了梯度流向之前的段。

决议通过后,张军在接受中外媒体采访时说,当前最重要的是,各国抗疫应坚持人民至上、生命至上,尽最大努力保护人民生命安全和身体健康,包括妇女、儿童、老人、残疾人等弱势群体。无论是在冲突地区,还是在发达国家,每个生命都值得珍惜。在中方倡议下,安理会决议写入了“以人民为中心”的理念。希望各国加强合作,拯救更多生命。

除了巧妙的缓存机制,这种对长上下文的惩罚使得自适应窗口高达8k个字符,同时仍然保持模型的整体计算成本可控。此外,它在基线上的性能仍然很高——在enwiki8上达到了0.98比特/字符,text8数据集上达到了1.07比特/字符。

由于在训练过程中必须缓存激活,以便进行梯度计算(除非使用梯度检查点这种激活再计算策略),因此仅存储这些12层的BERT-Base注意力矩阵,每个样本就要消耗约150MB的内存。 当序列长度为1024时,这就上升为约600MB,而序列长度为2048时,每个样本仅存储注意力矩阵就已经消耗了约2.4GB的内存。这意味着训练时的批处理尺寸(batch size)更小,并行性更差,进一步阻碍了模型利用长距离上下文的能力。

加盟拜仁的四个赛季里,科曼在联赛中的出场数据是19,21,21,24。

所以,6年后,当科曼又进入欧冠决赛时。

袁国勇表示,接种疫苗仍是最实际和重要的抗疫方法。他呼吁公众继续戴口罩、保持个人卫生,以及保持社交距离。

2013年2月17日,在法甲联赛第25轮巴黎客场2-3负于索肖队的比赛中,金斯利·科曼被主教练安切洛蒂派遣,替补维拉蒂登场。

“科曼是配得上为拜仁在欧冠决赛中首发的球员。”卡佩罗在谈到科曼取代佩里西奇在欧冠决赛中首发的问题时说道。

(c) 将查询的位置与键的内容相关联

(b) 将查询的内容与键的位置相关联

科曼表示,自己曾在2018年考虑过提前退役:“在两次手术之后我有了这样的想法,我当时只踢了新赛季的第一场比赛就不得不再次做手术,我什么都做不了,恢复过程十分艰难。”

注意力工作细探与实验结果

那场欧冠决赛,是科曼代表尤文于正式比赛中的最后一次登场。

为这支巴伐利亚豪门打进欧洲赛场第500球、并以1比0阻挡巴黎的——不是靠金球呼声最高的莱万、也不是疾风穆勒。

张军强调,中方从一开始就赞同联合国秘书长的全球停火倡议和全球人道响应计划,在多个场合表达了支持立场,日前还同171个会员国发表支持全球停火倡议的共同声明。中方始终建设性参与决议草案磋商,同绝大多数安理会成员一道,凝聚最广泛共识,展现最大限度灵活,克服重重阻力,全力推动安理会对外发出合作抗疫、共克时艰的积极信号。

20岁就跟随法国队参加欧洲杯的科曼,确实是命运多舛,那一年的欧洲杯决赛法国输给葡萄牙屈居亚军。

多头自注意力开销很大,这已经不是什么秘密了——序列长度的O(n²)复杂度意味着不太可能让经典的Transformer模型处理超长文本序列。在过去的两年里,NLP社区已经开发出了名副其实的缝合怪方法来应付这种复杂性,但这篇文章将重点介绍在大规模下更有前景的方法。

巴黎给自己的对手,制造了一架断头台。

换句话说,他们学习了一个函数fc,通过最小化压缩记忆的注意力(C-1=fc(Mold))和正被压缩的正常记忆状态的注意力之差,将n个最早的记忆状态压缩为一个压缩记忆状态。:

多头注意力对序列长度的伸缩性很差,原因有二: 首先是计算注意力矩阵所需的FLOPs按序列长度的平方暴增,导致对单个序列的自注意力操作的计算复杂度为O(hdn²),其中h是注意力头数,d是key和query的维度,n是文本序列的长度。第二点是,点积自注意力操作的空间复杂度也按序列长度的平方增大。 计算注意力矩阵的空间复杂度为O(hdn+hn²)——第一项是存储key和query所需的内存,第二项是每个头得出的注意力标量值。

一半的头只关注短的局部上下文,而另一半则预分配均匀分布在整个序列中的索引。

在13-14赛季结束后,科曼拒绝了大巴黎的续约合同,离开家乡奔赴都灵,转投斑马军团。

DeepMind团队尝试了多种压缩操作(包括平均池化、最大池化和学习卷积等等),但最终决定训练一个二级网络来重建缩记忆中基于内容的注意力矩阵。 

北京时间8月23日凌晨,进入欧冠决赛的大巴黎奋力抵抗了90分钟,创造了不少经典反击,但依旧因为1球饮恨。

在一个典型的自注意力操作中,输入序列中的每一项都会关注到输入序列中的所有其他项,从而形成如下的注意力模式:

为了使相对位置编码的使用变得简单,他们将从键和查询中产生注意力权重的操作进行了分解。对于一个典型的密集注意力操作,pre-softmax注意力权重可以如下分解:

固定的稀疏Transformer。深蓝色方块代表查询,中浅蓝色方块代表奇数层注意力键索引,最浅蓝色的方块代表偶数层关注的关键索引。

在阿莱格里手下,18岁的科曼第一个赛季成为了合格的轮转球员。他联赛出场14次,助攻2球;在意大利杯中出场4次,打入1球。

科曼的父母都来自法国的海外省——位于加勒比海小安的列斯群岛中部一个叫做瓜德罗普的小岛。

6年后,在法国大革命中,作为机械爱好者,将断头台改进为斜刃的路易十六,品尝了自己改进的科学性。

上式中,Exi是词符在位置i的基于内容的嵌入,Uj是词符j的位置嵌入。

“我问了自己很多问题。我并不认为这是懦弱的表现,但是那样的想法就是出现了。”

2015年8月30日,在欧洲夏季转会窗口关闭的前一天,拜仁宣布科曼租借加盟球队两个赛季。租借费700万欧元,买断费2100万欧元。

这个人叫金斯利-科曼,他出身于巴黎,恰恰来自巴黎圣日耳曼的青训营。

对于包含查询位置的项,我们将矩阵UiUi替换为两个新学习参数uu和vv。这些向量可以理解为两个不依赖于查询具体细节的偏置——cc鼓励多关注一些项,dd鼓励多关注相对位置。 作出这种替换是因为对自身的查询其相对位置保持不变。

重要的是,离散化注意力结构似乎不会对语言模型的性能产生负面影响,它的每字符比特数比enwiki8上的密集注意力(令人惊讶地)更高,且可以在高达12228个词符的上下文上产生有效的注意力。  

在这些限制条件下,大部分的头都会选择关注1000个字符的上下文。

在左边路,科曼大秀脚法和速度,他泥鳅一样地在禁区内过人,被科雷尔从身后扒拉倒。

他们没有将这种压缩操作与主语言模型联合训练,而是选择在一个单独的优化循环中更新压缩网络。因为让注意力状态容易被压缩,对降低语言模型的损失会起到反作用。

在b)和d)中,Uj已经被它的相对位置嵌入Ri-j替换.

但是,主裁判奥尔萨托保持了自己对点球的容忍度。

按照Transformer-XL的做法,当前序列可以关注已存储的前段的激活。此外,在同样的多头注意操作中,当前段中的词符可以关注存储在 “压缩记忆 “中的第二组状态。

该团队主要人员包括微生物学系讲座教授袁国勇及临床副教授杜启泓等。

密集多头注意力的时间和空间复杂度

“很明显,尤文一直在重复犯错。

由于利用较长序列长度的收益通常是长尾的,他们特别研究了不同词频下的困惑度,发现在最稀有的词符上的收益尤其显著:

在每一步中,最早的压缩记忆被丢弃,压缩记忆向后移动一个索引。 然后,来自正常记忆段中最早的nn个状态进行压缩,然后转移到压缩记忆新空出来的槽中。

(d) 将查询的位置与键的位置相关联

但落后一球大举进攻的尤文,在伤停补时阶段被内马尔反击破门。1-3,科曼输掉了自己的第一次欧冠决赛。

可惜地是,这也是他留给大巴黎唯一的纪录和高光时刻了。那个赛季,他在一线队仅有这一次出场机会。

拜仁第六次捧起了欧洲冠军杯。

要想让Transformer-XL模型利用这样的长程上下文,每一层至少有一个头要利用其注意力跨度的全部上下文。 平均注意力权重图显示,每一层都有头主要关注先前的位置。