(资料图片)
新智元报道
编辑:桃子 好困【新智元导读】Transformer,6岁了!2017年,Attention is All You Need奠基之作问世,至今被引数近8万。这个王者架构还能继续打多久?2017年6月12日,Attention is All You Need,一声炸雷,大名鼎鼎的Transformer横空出世。它的出现,不仅让NLP变了天,成为自然语言领域的主流模型,还成功跨界CV,给AI界带来了意外的惊喜。到今天为止,Transformer诞生6周年。而这篇论文被引数高达77926。英伟达科学家Jim Fan对这篇盖世之作做了深度总结:1. Transformer并没有发明注意力,而是将其推向极致。第一篇注意力论文是在3年前(2014年)发表的。这篇论文来自Yoshua Bengio的实验室,而标题并不起眼「Neural Machine Translation by Jointly Learning to Align and Translate」。它是「RNN+上下文向量」(即注意力)的组合。或许很多人都没有听说过这篇论文,但它是NLP中最伟大的里程碑之一,已经被引用了29K次(相比之下,Transformer为77K)。2. Transformer和最初的注意力论文,都没有谈到通用序列计算机。相反,两者都为了解决一个狭隘而具体的问题:机器翻译。值得注意的是,AGI(不久的某一天)可以追溯到不起眼的谷歌翻译。3. Transformer发表在2017年的NeurIPS上,这是全球顶级的人工智能会议之一。然而,它甚至没有获得Oral演讲,更不用说获奖了。那一年的NeurIPS上有3篇最佳论文。截止到今天,它们加起来有529次引用。Transformer这一经典之作却在NeurIPS 2017没有引起很多人的关注。对此,Jim Fan认为,在一项出色的工作变得有影响力之前,很难让人们认可它。我不会责怪NeurIPS委员会——获奖论文仍然是一流的,但影响力没有那么大。一个反例是ResNet。何凯明等人在CVPR 2016年获得了最佳论文。这篇论文当之无愧,得到了正确的认可。2017年,该领域聪明的人中,很少有人能够预测到今天LLM革命性的规模。就像20世纪80年代一样,很少有人能预见自2012年以来深度学习的海啸。OpenAI科学家Andrej Karpathy对Jim Fan第2点总结颇感兴趣,并表示,介绍注意力的论文(由@DBahdanau , @kchonyc , Bengio)比 「Attention is All You Need」的论文受到的关注要少1000倍。而且从历史上看,这两篇论文都非常普通,但有趣的是恰好都是为机器翻译而开发的。你只需要注意力!
Transformer诞生之前,AI圈的人在自然语言处理中大都采用基于RNN(循环神经网络)的编码器-解码器(Encoder-Decoder)结构来完成序列翻译。然而,RNN及其衍生的网络最致命的缺点就是慢。关键问题就在于前后隐藏状态的依赖性,无法实现并行。Transformer的现世可谓是如日中天,让许多研究人员开启了追星之旅。2017年,8位谷歌研究人员发表了Attention is All You Need。可以说,这篇论文是NLP领域的颠覆者。论文地址:https://arxiv.org/pdf/1706.03762.pdf它完全摒弃了递归结构,依赖注意力机制,挖掘输入和输出之间的关系,进而实现了并行计算。甚至,有人发问「有了Transformer框架后是不是RNN完全可以废弃了?」JimFan所称Transformer当初的设计是为了解决翻译问题,毋庸置疑。谷歌当年发的博客,便阐述了Transformer是一种语言理解的新型神经网络架构。文章地址:https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html具体来讲,Transformer由四部分组成:输入、编码器、解码器,以及输出。输入字符首先通过Embedding转为向量,并加入位置编码(Positional Encoding)来添加位置信息。然后,通过使用多头自注意力和前馈神经网络的「编码器」和「解码器」来提取特征,最后输出结果。如下图所示,谷歌给出了Transformer如何用在机器翻译中的例子。机器翻译的神经网络通常包含一个编码器,在读取完句子后生成一个表征。空心圆代表着Transformer为每个单词生成的初始表征。然后,利用自注意力,从所有其他的词中聚合信息,在整个上下文中为每个词产生一个新表征,由实心圆表示。接着,将这个步骤对所有单词并行重复多次,依次生成新的表征。同样,解码器的过程与之类似,但每次从左到右生成一个词。它不仅关注其他先前生成的单词,还关注编码器生成的最终表征。2019年,谷歌还专门为其申请了专利。自此,在自然语言处理中,Transformer逆袭之路颇有王者之风。归宗溯源,现在各类层出不穷的GPT(Generative Pre-trained Transformer),都起源于这篇17年的论文。然而,Transformer燃爆的不仅是NLP学术圈。万能Transformer:从NLP跨到CV
2017年的谷歌博客中,研究人员曾对Transformer未来应用潜力进行了畅享:不仅涉及自然语言,还涉及非常不同的输入和输出,如图像和视频。没错,在NLP领域掀起巨浪后,Transformer又来「踢馆」计算机视觉领域。甚至,当时许多人狂呼Transformer又攻下一城。自2012年以来,CNN已经成为视觉任务的首选架构。随着越来越高效的结构出现,使用Transformer来完成CV任务成为了一个新的研究方向,能够降低结构的复杂性,探索可扩展性和训练效率。2020年10月,谷歌提出的Vision Transformer (ViT),不用卷积神经网络(CNN),可以直接用Transformer对图像进行分类。值得一提的是,ViT性能表现出色,在计算资源减少4倍的情况下,超过最先进的CNN。紧接着,2021年,OpenAI连仍两颗炸弹,发布了基于Transformer打造的DALL-E,还有CLIP。这两个模型借助Transformer实现了很好的效果。DALL-E能够根据文字输出稳定的图像。而CLIP能够实现图像与文本的分类。再到后来的DALL-E进化版DALL-E 2,还有Stable Diffusion,同样基于Transformer架构,再次颠覆了AI绘画。以下,便是基于Transformer诞生的模型的整条时间线。由此可见,Transformer是有多么地能打。2021年,当时就连谷歌的研究人员David Ha表示,Transformers是新的LSTMs。而他曾在Transformer诞生之前,还称LSTM就像神经网络中的AK47。无论我们如何努力用新的东西来取代它,它仍然会在50年后被使用。Transformer仅用4年的时间,打破了这一预言。新硅谷「七叛徒」
如今,6年过去了,曾经联手打造出谷歌最强Transformer的「变形金刚们」怎么样了?Jakob Uszkoreit被公认是Transformer架构的主要贡献者。他在2021年中离开了Google,并共同创立了Inceptive Labs,致力于使用神经网络设计mRNA。到目前为止,他们已经筹集了2000万美元,并且团队规模也超过了20人。Ashish Vaswani在2021年底离开Google,创立了AdeptAILabs。可以说,AdeptAILabs正处在高速发展的阶段。目前,公司不仅已经筹集了4.15亿美元,而且也估值超过了10亿美元。此外,团队规模也刚刚超过了40人。然而,Ashish却在几个月前离开了Adept。在Transformers论文中,Niki Parmar是唯一的女性作者。她在2021年底离开Google,并和刚刚提到的Ashish Vaswani一起,创立了AdeptAILabs。不过,Niki在几个月前也离开了Adept。Noam Shazeer在Google工作了20年后,于2021年底离开了Google。随后,他便立刻与自己的朋友Dan Abitbol一起,创立了Character AI。虽然公司只有大约20名员工,但效率却相当之高。目前,他们已经筹集了近2亿美元,并即将跻身独角兽的行列。Aidan Gomez在2019年9月离开了Google Brain,创立了CohereAI。经过3年的稳定发展后,公司依然正在扩大规模——Cohere的员工数量最近超过了180名。与此同时,公司筹集到的资金也即将突破4亿美元大关。Lukasz Kaiser是TensorFlow的共同作者人之一,他在2021年中离开了Google,加入了OpenAI。Illia Polosukhin在2017年2月离开了Google,于2017年6月创立了NEAR Protocol。目前,NEAR估值约为20亿美元。与此同时,公司已经筹集了约3.75亿美元,并进行了大量的二次融资。现在,只有Llion Jones还在谷歌工作。在论文的贡献方面,他风趣地调侃道:「自己最大的意义在于——起标题。」网友热评
走到现在,回看Transformer,还是会引发不少网友的思考。AI中的开创性论文。马库斯表示,这有点像波特兰开拓者队对迈克尔·乔丹的放弃。这件事说明了,即使在这样的一级研究水平上,也很难预测哪篇论文会在该领域产生何种程度的影响。这个故事告诉我们,一篇研究文章的真正价值是以一种长期的方式体现出来的。哇,时间过得真快!令人惊讶的是,这个模型突破了注意力的极限,彻底改变了NLP。在我攻读博士期间,我的导师 @WenmeiHwu 总是教育我们,最有影响力的论文永远不会获得最佳论文奖或任何认可,但随着时间的推移,它们最终会改变世界。我们不应该为奖项而奋斗,而应该专注于有影响力的研究!参考资料:https://twitter.com/DrJimFan/status/1668287791200108544
https://twitter.com/karpathy/status/1668302116576976906
https://twitter.com/JosephJacks_/status/1647328379266551808
标签:
上一篇 : 港交所“双柜台模式”19日正式启动:人民币可直接买港股 环球速看料
下一篇 : 最后一页
最新推荐
律师兼任调解员,不打官司也能化解纠纷,代理调解受指派的公益性案件还免费。这是兵团第十师北屯市探索...
根据教育部教育考试院统一安排,2022年上半年全国大学英语四、六级口语考试将于5月21日-22日举行,笔试...
学生代购的“苦”与“乐” “你问的这个产品现在做促销活动,买一件包邮,还送小样和面膜……”...
11月11日大连市新冠肺炎疫情防控总指挥部发布,11月10日0时至24时,大连市新增21例本土新冠肺炎确诊...
纤维素制成闪光材料无毒可降解 或彻底改变化妆品行业 科技日报北京11月11日电 (实习记者张...
海洋中或堆积了2 8万吨新冠废物 科技日报北京11月11日电 (记者刘霞)据美国趣味科学网站10日报...
开屏广告又现新花招,换个马甲就重来? ■ 来论 据媒体报道,“双十一”期间,一些App的开屏...
对不合理教师资格认定标准,该全面清理了 ■ 来论 针对网友留言反映的“糖尿病无法通过教师...
虚假宣传、以次充好、售卖临期产品不提示直播间商家“放水”让消费者闹心 关注“双11” 今年...
“扫码抽手机”实则是广告 快递单能“领红包”面单广告是谁发的? “双11”之际,消费者被商...
中新网11月12日电 据北京市疾病预防控制中心微信公众号消息,2021年11月10日北京市接报1例在京存在...
(抗击新冠肺炎)辽宁大连本轮疫情病毒为德尔塔变异株 24个区域划定为中风险地区 中新社大连11月1...
中新网西安11月11日电 (梅镱泷 杨起超)记者11日从西安市鄠邑区秦保局获悉,太平国有生态林场架设...
(抗击新冠肺炎)成都停业整顿56家零售药店 买感冒药需提供身份证 中新网成都11月11日电 (记者 ...
中新网大连11月11日电 (记者 杨毅) 11月11日,大连市政府秘书长衣庆焘在大连疫情防控新闻发布会...
新华社杭州11月11日电(记者冯源)在商周时期,如今的浙江中西部活跃着一个名为“姑蔑”的族群,但是...
中新网大连11月11日电 (记者 杨毅)11月11日,大连市政府秘书长衣庆焘在大连疫情防控工作新闻发布...
中新网大连11月11日电 (记者 杨毅)11月11日,大连市政府秘书长衣庆焘在大连疫情防控工作新闻发布...
中新网昆明11月11日电(记者 缪超)云南“最美政法干警”发布仪式11日在昆明举行。会上,授予昆明市...
(抗击新冠肺炎)甘肃凝聚“她力量”:互助抗疫,女人更懂女人心 中新网兰州11月11日电 (记者 徐...
中新网兰州11月11日电 (史静静)在甘肃金川公司,27年来葛小海始终在生产一线,他参与的“渣罐车制...
中新网乌鲁木齐11月11日电 (王小军 罗宣政 廖超)11月11日,一批来自浙江嘉兴的爱心物资,跨越...
中新网兰州11月11日电 (邬凡 朱学成)11月10日5时30分,位于敦煌车站旁的敦煌综合工区,钢轨探伤车...
中新网重庆11月11日电 (梁钦卿)“我今年上小学三年级了,我不怕疼,打疫苗是为了抵抗新冠病毒。”1...
中新网绵阳11月11日电 (岳波 李远梅)四川绵阳警方11日通报称,一男子酒后无聊多次报警称自己的...
中新网11月11日电 据中国民航局网站消息,11月11日,民航局再发熔断指令,对德国汉莎航空公司LH728...
中新网成都11月11日电 题:疫情中轮椅上的“逆行者”:想为大家做力所能及的事 作者 祝欢 ...
中新网上海11月11日电 (记者 李姝徵)上海警方11日召开发布会披露,在近期“砺剑”行动中破获了一...
中新网太原11月11日电 (记者 李庭耀)记者11日从山西省政府新闻办举行的新闻发布会上获悉,山西推...
中新网乌鲁木齐11月11日电 (刘雨珊 牛雨萌 艾尼)11日,记者从新疆水产科研所获悉,新疆博湖县将...
中新网大连11月11日电 (记者 杨毅)大连市新冠肺炎疫情防控总指挥部 11日发布公告,大连市将庄河...
中新网西安11月11日电 (记者 党田野)身穿白色“礼服”,摇晃着酒杯,时不时浅酌一口啤酒,然后与...
11月11日大连市新冠肺炎疫情防控总指挥部发布,按照国务院应对新冠肺炎疫情联防联控机制关于科学划...
中新网南京11月11日电 题:这个“双十一”南京的猪都“脱单”了 其实还有更让人嫉妒的…… ...
中新网呼伦贝尔11月11日电 (记者 张林虎)11日,记者从内蒙古自治区呼伦贝尔市公安局获悉,该局将...
中新网广州11月11日电 (记者 程景伟)“寻味帅府邂逅甜蜜——2021年帅府之夜”暨“海外拾珠——孙...
中新网徐州11月11日电 题:江苏徐州“家门口车管所”便民服务驶入“高速路” 作者 朱志庚 ...
中新网重庆11月11日电 (梁钦卿)为加强秋冬季空气污染应对,重庆市生态环境局11日发出2021年第九次...
新华社重庆11月11日电 题:深藏功名三十载 化作春蚕报乡亲——一名抗美援朝老兵的人生选择 新...
中新网益阳11月11日电 (王鹏 王庆庆)爱花本是修身养性、陶冶情操之事,湖南益阳市桃江县桃花江镇...
中新网成都11月11日电 题:成都25位民辅警的“封闭”生活:有人“转行”送外卖 有人变身“仓鼠管...
中新网南京11月11日电 (徐珊珊)江苏省教育厅体育卫生与艺术教育处处长张鲤鲤11日在南京表示,到202...
中新网成都11月11日电 (记者 吕杨)成都市公园城市建设管理局11日正式发布公园城市银杏观叶指数,...
中新网南京11月11日电 (徐珊珊)11日,江苏省教育厅召开新闻发布会,发布2020年江苏省学生体质健康...
中新网宜昌11月11日电 (江雅丽 董晓斌)17年前,四川广安一夫妇的6岁儿子被人拐走,夫妻俩寻找多年...
中新网宁德11月11日电 (林榕生)福建宁德市柘荣县应对新型冠状病毒感染肺炎疫情工作领导小组(指挥部...
11月11日,内蒙古额济纳旗新冠肺炎防控工作指挥部发布《关于调整额济纳旗达来呼布镇风险等级的公告...
(抗击新冠肺炎)内蒙古现有本土确诊病例32例 伊金霍洛旗确诊病例清零 中新网呼和浩特11月11日电...
中新网呼和浩特11月11日电 (记者 张林虎)11日,记者从内蒙古自治区通辽市相关部门获悉,从10日下...
中新网兰州11月11日电 (记者 魏建军)“我常常一有空就去公司废旧堆场‘寻宝’,虽然不是每次都有...
成都抗疫的外籍志愿者:愿为城市“康复”贡献力量
Copyright © 2015-2022 北方律师网版权所有 备案号:京ICP备2021034106号-50 联系邮箱: 55 16 53 8@qq.com