每日精选AI研究论文及翻译
我们介绍了 PaLM 2,这是一种全新的最先进语言模型,具有更好的多语言和推理能力,比其前身 PaLM 更高效。PaLM 2 是基于 Transformer 的模型,使用混合目标进行训练。通过对英语和多语言语言以及推理任务的广泛评估,我们证明了 PaLM 2 在不同模型大小下在下游任务上有显着提高的质量,同时相较于 PaLM 具有更快速和更高效的推理能力。这种改进的效率使得更广泛的部署成为可能,同时也使模型能够更快速地响应,实现更自然的交互节奏。PaLM 2 展示了强大的推理能力,通过在 BIG-Bench 和其他推理任务上相较于 PaLM 的大幅提升来加以说明。PaLM 2 在一系列负责任的 AI 评估中表现稳定,并且能够在推理时控制毒性,而无需额外的开销或对其他功能的影响。总体而言,PaLM 2 在各种任务和能力上取得了最先进的性能。 在讨论 PaLM 2 系列时,重要的是要区分预训练模型(各种大小)、这些模型的微调变体以及使用这些模型的面向用户的产品。特别是,面向用户的产品通常包括额外的预处理和后处理步骤。此外,底层模型可能随时间演变。因此,不应期望用户产品的性能与本报告中报告的结果完全匹配。
文本编辑或修订是人类写作过程中的一个关键功能。了解大型语言模型(LLMs)在进行高质量修订和与人类写作者合作方面的能力是朝着构建有效写作助手的关键一步。借助LLMs和指令调整的先前成功经验,我们利用经过指令调整的LLMs进行文本修订,以提高用户生成文本的质量并提高流程的效率。我们介绍了CoEdIT,这是一种用于写作辅助的最先进文本编辑模型。CoEdIT接受用户提供的指令,指定所需文本的属性,比如“使句子更简单”或“以更中性的风格写”,然后输出编辑后的文本。我们展示了一个在各种任务特定指令的多样集合上进行微调的大型语言模型(共82K个指令)。我们的模型:(1)在各种文本编辑基准测试中实现了最先进的性能,(2)与公开可用的在指令上训练的最大尺寸LLMs相比具有竞争力,同时体积减小了60倍,(3)能够推广到未见过的编辑指令,(4)具有组合理解能力,可以推广到包含不同编辑操作组合的指令。通过广泛的定性和定量分析,我们表明写作者更喜欢CoEdIT建议的编辑,相对于其他最先进的文本编辑模型。我们的代码和数据集是公开可用的。
已经证明,从人类反馈中学习对于使语言模型与人类偏好保持一致是有效的。过去的研究通常依赖于从人类反馈中进行强化学习(RLHF),该方法使用从训练在人类偏好数据上的奖励模型得出的奖励分数来优化语言模型。在这项工作中,我们展示了最近引入的序列似然校准(SLiC)也可以用于有效地从人类偏好中学习(SLiC-HF)。此外,我们证明可以利用为不同模型收集的人类反馈数据来实现这一点,类似于离线的离线强化学习数据。在TL;DR摘要任务上进行的自动和人类评估实验表明,SLiC-HF显著改善了监督微调基线。此外,SLiC-HF提供了一个竞争性的选择,可以替代过去工作中使用的PPO RLHF实现,同时实现更简单的实现、更容易调整和更高的计算效率。
预训练数据领域(例如维基百科、图书、网络文本)的混合比例对语言模型(LM)的性能有很大影响。本文提出了一种名为最小最大优化域重新加权(DoReMi)的方法,首先使用组分布稳健优化(Group DRO)在领域上训练一个小型代理模型,以生成领域权重(混合比例),而无需了解下游任务。然后,我们使用这些领域权重对数据集进行重新采样,并训练一个更大的全尺寸模型。在我们的实验中,我们使用DoReMi在一个拥有2.8亿参数的代理模型上,更高效地找到用于训练一个拥有80亿参数的模型(规模扩大30倍)的领域权重。在The Pile数据集上,DoReMi在所有领域中都改善了困惑度,即使它降低了某个领域的权重。DoReMi将平均少样本下游准确率提高了6.5%,超过了使用The Pile默认领域权重训练的基线模型,并且在训练步骤减少2.6倍时达到基线准确率。在GLaM数据集上,DoReMi即使没有下游任务的知识,也能与在下游任务上调整的领域权重的性能相匹配。
本文介绍了自我蒸馏和在线聚类用于自监督语音表示学习(DinoSR),结合了掩码语言建模、自我蒸馏和在线聚类。我们展示了这些概念如何相互补充,并产生了一个强大的语音表示学习模型。DinoSR首先从输入音频中使用教师网络提取上下文嵌入,然后在嵌入上运行在线聚类系统,生成一个机器发现的音素库,最后使用离散化的标记指导学生网络。我们展示了DinoSR在多个下游任务中超越了先前的最先进性能,并提供了对模型和学习的离散单元的详细分析。匿名期结束后将提供源代码。
增强词语使用是写作辅助中一个理想的特性。为了进一步推动这一领域的研究,本文介绍了“智能词语建议”(SWS)任务和基准。与其他作品不同,SWS强调端到端评估,并呈现了更为现实的写作辅助场景。该任务涉及识别需要改进的词语或短语,并提供替换建议。基准包括人工标记的测试数据,用于训练的大规模远程监督数据集,以及用于评估的框架。测试数据包括1,000个由英语学习者撰写的句子,配有由10名母语者注释的超过16,000个替换建议。训练数据集包括超过3.7百万个句子和通过规则生成的12.7百万个建议。我们对七个基准模型进行的实验表明,SWS是一个具有挑战性的任务。根据实验分析,我们提出了未来在SWS上的研究潜在方向。数据集和相关代码可在 https://github.com/microsoft/SmartWordSuggestions 获取。
大型语言模型(LLMs)已经展示出在越来越多的任务中具有卓越的预测性能。然而,它们的快速扩散和日益不透明性引发了对可解释性的增长需求。在这里,我们探讨是否可以自动获取黑盒文本模块的自然语言解释。这里所说的“文本模块”是指将文本映射到标量连续值的任何函数,比如LLM内的子模块或大脑区域的拟合模型。“黑盒”表示我们只能访问模块的输入/输出。 我们引入了总结和评分(SASC)方法,该方法接收一个文本模块,并返回模块选择性的自然语言解释以及解释可靠性的评分。我们在3个情境下研究了SASC。首先,我们在合成模块上评估SASC,并发现它经常恢复地面真实解释。其次,我们使用SASC来解释预训练的BERT模型中找到的模块,实现对模型内部的检查。最后,我们展示SASC可以为单个fMRI体素对语言刺激的响应生成解释,具有对细粒度脑部映射的潜在应用。所有使用SASC和重现结果的代码均已在Github上提供。
与基于服务器的系统相比,设备上的自动语音识别系统面临着几个挑战。它们必须在速度、磁盘大小和内存方面满足更严格的约束条件,同时保持相同的准确性。通常,它们必须同时为多个具有不同分布的应用提供服务,比如与虚拟助手和语音转文本进行通信。为多个应用提供服务的最简单解决方案是构建特定于应用的(语言)模型,但这会增加内存占用。因此,我们探索了不同的数据驱动和架构驱动的语言建模方法,以构建一个单一的应用无关模型。我们提出了两种新颖的前馈架构,找到了在设备上不同约束之间的最佳折衷方案。与特定于应用的解决方案相比,我们的一种新方法将磁盘大小减少了一半,同时保持了原始模型的速度和准确性。
多视图立体(Multi-view Stereo, MVS)的核心是参考像素和源像素之间的匹配过程。在这一过程中,代价聚合起着重要作用,而先前的方法主要集中在通过卷积神经网络(CNNs)来处理它。这可能会继承CNNs的固有局限,即由于有限的局部感受野而无法区分重复或不正确的匹配。为了解决这个问题,我们旨在将Transformer引入到代价聚合中。然而,由于Transformer引起的计算复杂度呈二次增长,可能会导致内存溢出和推理延迟等问题。在本文中,我们通过一种高效的基于Transformer的代价聚合网络CostFormer来克服这些限制。我们提出了残差深度感知代价Transformer(RDACT),通过自注意力机制沿深度和空间维度对代价体积上的长距离特征进行聚合。此外,我们提出了残差回归Transformer(RRT)来增强空间注意力。该方法是一个通用的插件,可用于改进基于学习的MVS方法。
大型多语言语言模型表现出令人惊讶的零或少样本机器翻译能力,尽管从未见过典型神经翻译系统提供的有意包含的翻译示例。我们研究了偶发双语能力的作用——即无意中消耗双语信号,包括翻译示例,以解释大型语言模型的翻译能力,以 Pathways 语言模型(PaLM)为案例研究。我们引入了一种混合方法来衡量和理解规模化的偶发双语能力。我们展示 PaLM 暴露于至少 44 种语言的超过 3000 万个翻译对。此外,偶发双语内容的数量与非英语语言的单语内容量高度相关。我们将偶发双语内容与零样本提示相关联,并显示它可用于挖掘新提示,以提高 PaLM 在英语之外的零样本翻译质量。最后,在一系列小规模消融实验中,我们展示了其存在对翻译能力有重大影响,尽管这种影响随着模型规模的增大而减弱。
我们研究多个大型语言模型(LLMs)是否能通过玩耍、反思和批评在谈判游戏中自主改进彼此。我们对这个问题感兴趣,因为如果LLMs能够相互改进,那将意味着可以在最小程度的人为干预下创造强大的人工智能代理。我们让两个LLMs扮演买方和卖方的角色进行谈判,他们的目标是让买方以更低的价格和卖方以更高的价格达成交易。第三个语言模型扮演批评者的角色,为玩家提供反馈以改进谈判策略。我们让这两个代理进行多轮游戏,利用先前的谈判历史和人工智能反馈作为上下文演示,迭代地改进模型的谈判策略。我们为不同的角色使用不同的LLMs(GPT和Claude),以交易价格作为评估指标。我们的实验揭示了多个有趣的发现:(1)我们考虑的语言模型中只有一部分能够自我对弈并通过人工智能反馈改进交易价格,较弱的模型要么不理解游戏规则,要么无法将人工智能反馈纳入进一步改进。 (2)模型从反馈中学习的能力在扮演不同角色时有所不同。例如,Claude-instant作为买方比作为卖方更难改进。 (3)当将游戏展开到多轮时,更强大的代理可以通过有意义地利用先前经验和迭代的人工智能反馈持续改进表现,但也更容易破坏交易。我们希望我们的工作提供了对通过游戏和人工智能反馈自主改进模型的初步探索的深刻见解。
细粒度分类是一项具有挑战性的任务,涉及识别同一类别内对象之间的细微差异。在数据稀缺的情况下,这项任务尤其具有挑战性。视觉Transformer(ViT)最近已成为图像分类的强大工具,因为它们能够利用自注意力机制学习视觉数据的高度表达性表示。在这项工作中,我们探索了Semi-ViT,这是一种使用半监督学习技术微调的ViT模型,适用于缺乏注释数据的情况。这在电子商务中特别常见,那里的图像readily可用,但标签可能是嘈杂的、不存在的或昂贵的获取。我们的结果表明,即使在有限的注释数据下微调,Semi-ViT也优于传统的卷积神经网络(CNN)和ViT。这些发现表明,Semi-ViT在需要对视觉数据进行精确和细粒度分类的应用中具有重要潜力。
本文发表在2023年IEEE国际机器人与自动化会议的非传统空间表示研讨会上。 神经辐射场(NeRFs)是一类隐式场景表示,可以从彩色图像中对3D环境进行建模。NeRFs具有表现力,可以对真实世界环境的复杂和多尺度几何进行建模,这使它们潜在地成为机器人应用的强大工具。现代NeRF训练库可以在几秒钟内从静态数据集生成逼真的NeRF,但它们设计用于离线使用,并需要一个缓慢的姿势优化预计算步骤。 在这项工作中,我们提出了NerfBridge,这是一个开源桥梁,连接了机器人操作系统(ROS)和流行的Nerfstudio库,用于从图像流实时在线训练NeRF。NerfBridge通过提供一个可扩展的接口,连接了Nerfstudio提供的高效训练流水线和模型库,从而促进了在机器人学中应用NeRF的研究的快速发展。作为示例用例,我们概述了一个硬件设置,可以使用NerfBridge来训练一个NeRF,该NeRF是通过安装在四旋翼飞行器上的摄像头捕获的室内和室外环境的图像。 附带视频链接https://youtu.be/EH0SLn-RcDg 和代码链接https://github.com/javieryu/nerf_bridge。
多媒体内容,如广告和故事视频,展示了丰富的创造力和多种形式。它们融合了文本、视觉、音频和叙事技巧等元素,运用情感、象征和口号等手段来传达意义。虽然先前在多媒体理解方面的研究主要集中在具有特定动作的视频,比如烹饪,但缺乏大规模注释的训练数据集,阻碍了为现实应用开发性能令人满意的监督学习模型。然而,大型语言模型(LLMs)的兴起在各种自然语言处理(NLP)任务中见证了显著的零-shot性能,如情感分类、问答和主题分类。为了弥合多媒体理解中的性能差距,我们提出了通过用自然语言生成故事视频描述,然后在生成的故事上执行视频理解任务,而不是在原始视频上执行。通过对五项视频理解任务进行大量实验,我们证明了我们的方法,尽管是零-shot,但在视频理解方面取得了比监督基线显著更好的结果。此外,为了缓解故事理解基准的不足,我们公开发布了计算社会科学中一项关键任务的第一个数据集,即说服策略识别。