每日精选AI研究论文及翻译
我们引入 phi-1,这是一个用于代码的新型大型语言模型,其尺寸明显比竞争模型小:phi-1 是一个基于 Transformer 的模型,具有 13 亿参数,在 8 个 A100 上训练了 4 天,使用了来自网络的“教科书质量”数据(60 亿标记)和使用 GPT-3.5 合成生成的教科书和练习(10 亿标记)。尽管规模较小,phi-1 在 HumanEval 上的 pass@1 准确率达到 50.6%,在 MBPP 上达到 55.5%。与 phi-1-base 相比,即我们在编程练习数据集上进行微调之前的模型,以及 phi-1-small,一个具有 3.5 亿参数的较小模型,使用与 phi-1 相同的流程训练,仍然在 HumanEval 上达到 45% 的准确率,phi-1 还展现出令人惊讶的新颖特性。
由于数字人类的新兴需求,从给定动作描述生成逼真的人类运动已经取得了显著进展。尽管最近的研究在直接从文本动作描述生成运动方面取得了令人印象深刻的成果,但它们通常仅支持控制信号的单一模态,这限制了它们在真实数字人类行业中的应用。本文提出了一种运动通用生成器(MotionGPT),它可以利用多模态控制信号(例如文本和单帧姿势)来生成连续的人类运动,通过将多模态信号视为大型语言模型(LLMs)中的特殊输入标记。具体来说,我们首先将多模态控制信号量化为离散代码,然后将它们构建成统一的提示指令,要求LLMs生成运动答案。我们的MotionGPT通过调整仅占LLM参数的0.4%展示了一个具有多模态控制信号的统一人类运动生成模型。据我们所知,MotionGPT是第一种通过多模态控制信号生成人类运动的方法,我们希望这能为这个新方向带来启示。代码将在接受后发布。
HomeRobot(名词):一种价格实惠的顺应性机器人,可在家中导航并操作各种物体,以完成日常任务。开放词汇移动操作(OVMM)是在任何未知环境中拾取任何物体并将其放置在指定位置的问题。这对于机器人成为人类环境中有用的助手是一个基础性挑战,因为它涉及解决来自机器人技术各个领域的子问题:感知、语言理解、导航和操作对OVMM都至关重要。此外,整合这些子问题的解决方案本身也带来重大挑战。为推动这一领域的研究,我们引入了HomeRobot OVMM基准测试,其中一个代理程序在家庭环境中导航,抓取新颖物体并将其放置在目标容器上。HomeRobot有两个组成部分:一个模拟组件,使用新的、高质量的多房间家庭环境中的大量多样化的物体集合;以及一个现实世界组件,提供一个针对低成本Hello Robot Stretch的软件堆栈,以鼓励实验在实验室之间的复制。我们实施了基于强化学习和启发式(基于模型)基线,并展示了从模拟到真实的转移证据。我们的基线在现实世界中实现了20%的成功率;我们的实验确定了未来研究工作提高性能的方法。请访问我们网站上的视频:https://ovmm.github.io/。
尽管大型语言模型(LLMs)在GitHub Copilot等编码助手中取得了巨大成功,但这些模型难以理解存储库中存在的上下文(例如导入、父类、文件名相似等),因此产生了不准确的代码补全。当使用这些助手处理模型在训练中未见过的存储库时,如专有软件或正在进行中的代码项目时,这种影响更加显著。最近的研究表明,在推断过程中利用存储库的上下文具有潜力。在这项工作中,我们扩展了这一想法,并提出了RepoFusion,一个训练模型以整合相关存储库上下文的框架。针对单行代码补全的实验表明,我们训练的带有存储库上下文的模型明显优于规模大得多的代码模型,如CodeGen-16B-multi(规模相差73倍),并且与使用Fill-in-the-Middle目标训练的规模大70倍的StarCoderBase模型的性能相匹配。我们认为这些结果是训练带有存储库上下文的模型所能带来的收益的一种新颖而有说服力的展示。我们进行了大量消融研究,以调查框架中的设计选择,如上下文类型、上下文数量、上下文长度和初始化等的影响。最后,我们发布了Stack-Repo,这是一个包含200个Java存储库的数据集,具有宽松许可证和近重复文件,这些文件增加了三种类型的存储库上下文。此外,我们还提供了我们工作的代码和训练检查点。我们发布的资源可在https://huggingface.co/RepoFusion 找到。
在现实世界的应用中收集的点云数据通常是不完整的。数据通常缺失是因为对象是从部分视角观察到的,这些视角只捕获特定的透视或角度。此外,数据可能由于遮挡和低分辨率采样而不完整。现有的完成方法依赖于预定义对象的数据集,以指导嘈杂和不完整的点云的完成。然而,这些方法在测试时表现不佳,当测试对象是训练数据集中较少代表的Out-Of-Distribution (OOD)对象时。在这里,我们利用了最近在文本引导图像生成方面取得的进展,这些进展导致了文本引导形状生成方面的重大突破。我们描述了一种名为SDS-Complete的方法,它使用预训练的文本到图像扩散模型,并利用给定对象的不完整点云的文本语义,以获得完整的表面表示。SDS-Complete可以使用测试时间优化完成各种对象,而无需昂贵地收集3D信息。我们在由现实世界深度传感器和激光雷达扫描仪捕获的不完整扫描对象上评估了SDS Complete。我们发现,与当前方法相比,它有效地重建了常见数据集中缺失的对象,平均减少了50%的Chamfer损失。项目页面:https://sds-complete.github.io/
去噪扩散模型是一种强大的生成模型,用于捕捉真实世界信号的复杂分布。然而,它们的适用性仅限于训练样本容易获得的情况,而这并非在实际应用中总是成立。例如,在逆向图形学中,目标是从与给定图像对齐的3D场景分布中生成样本,但无法获得地面真实的3D场景,只能访问2D图像。为了解决这一限制,我们提出了一种新颖的去噪扩散概率模型类,它学习从从未直接观察到的信号分布中抽样。相反,这些信号通过已知的可微分前向模型间接测量,该模型生成未知信号的部分观测。我们的方法涉及将前向模型直接整合到去噪过程中。这种整合有效地连接了对观测的生成建模与对基础信号的生成建模,实现了对信号的条件生成模型的端到端训练。在推断过程中,我们的方法使得能够从与给定部分观测一致的基础信号分布中进行抽样。我们在三个具有挑战性的计算机视觉任务上展示了我们方法的有效性。例如,在逆向图形学的背景下,我们的模型使得能够直接从与单个2D输入图像对齐的3D场景分布中进行抽样。
利用来自不同机器人和任务的异构机器人经验迅速掌握新技能和实体的能力有可能改变机器人学习。受到视觉和语言基础模型的最新进展的启发,我们提出了一个用于机器人操作的基础代理。这个代理被命名为RoboCat,是一个视觉目标条件的决策变换器,能够处理多实体动作标记的视觉经验。这些数据涵盖了来自模拟和真实机器人手臂的大量运动控制技能,观察和动作集各异。通过RoboCat,我们展示了其能够泛化到新任务和机器人,包括零样本学习以及仅使用100-1000个示例进行目标任务的适应。我们还展示了如何使用训练好的模型生成数据以供后续训练迭代使用,从而为自主改进循环提供了一个基本构建模块。我们研究了代理的能力,在模拟环境和三种不同真实机器人实体上进行了大规模评估。我们发现,随着训练数据的增长和多样化,RoboCat不仅显示出跨任务迁移的迹象,而且在适应新任务时变得更加高效。
大型语言模型(LLMs)展示了在语言理解和生成方面的显著能力。从基础LLMs发展到遵循指令的LLMs,指令调整在使LLMs与人类偏好保持一致方面起着至关重要的作用。然而,现有的LLMs通常专注于英语,导致在非英语语言中表现较差。为了提高非英语语言的性能,有必要为基础LLMs收集特定语言的训练数据,并构建特定语言的指令以进行指令调整,这两者都是繁重的任务。为了减少人力工作量,我们提出通过交互式翻译任务将语言生成和指令遵循的能力从英语转移到其他语言。我们开发了BayLing,一种利用LLaMA作为基础LLM并自动构建交互式翻译指令进行指令调整的LLMs。广泛的评估表明,尽管参数规模仅为130亿,BayLing的性能与GPT-3.5-turbo相当。在翻译任务的实验结果显示,BayLing在单轮翻译能力方面达到了GPT-4的95%,在交互式翻译能力方面与GPT-3.5-turbo相比达到了96%,后者经过人类评估。为了评估在通用任务上的性能,我们创建了一个名为BayLing-80的多轮指令测试集。BayLing-80的实验结果表明,BayLing相比GPT-3.5-turbo的性能达到了89%。BayLing在对中国高考和英语SAT的知识评估方面表现出色,仅次于众多遵循指令的LLMs中的GPT-3.5-turbo。BayLing的演示、主页、代码和模型均可获得。
代码语言模型(LMs)在生成代码时,当周围代码提供足够的上下文时表现良好。但当需要使用另一个模块或库中定义的类型或功能时,特别是在训练过程中未见过的类型或功能时,情况就不同了。LMs缺乏对这种全局上下文的意识,导致出现幻觉,例如错误地使用其他文件中定义的类型。最近的研究尝试通过检索全局信息来增强本地上下文,然而这会使提示内容膨胀,或需要对架构进行修改和额外的训练。 集成开发环境(IDEs)通过静态分析将全局上下文提供给开发人员,以帮助开发人员。我们将这种开发人员享受的辅助功能扩展到LMs。我们提出了一种监视器的概念,它利用后台静态分析来指导解码。与先验检索不同,静态分析在整个解码过程中迭代调用,根据需求提供最相关的建议。我们通过监视LM在为对象解除引用生成代码时的类型一致性使用标识符的情况,展示了我们提议的有用性。 为了评估我们的方法,我们整理了PragmaticCode数据集,其中包含开源项目及其开发环境。在不同参数规模的模型上,我们展示了监视器引导解码始终提高LM生成与真实情况匹配的标识符的能力,同时提高了编译率和与真实情况的一致性。我们发现,在使用我们的监视器引导的情况下,参数较少的LM可以胜过更大的LM。通过监视器引导解码,SantaCoder-1.1B实现了比规模更大的text-davinci-003模型更好的编译率和下一个标识符匹配。数据集和代码将在https://aka.ms/monitors4codegen发布。
记忆增强是一种强大的方法,可以高效地将外部信息整合到语言模型中,但相对于检索文本会导致性能下降。最近的研究引入了LUMEN,这是一种记忆检索混合方法,部分预先计算记忆,并通过较小的实时编码器实时更新记忆表示。 我们提出了GLIMMER,通过以下方式改进这种方法:1)利用对强大记忆表示的免费访问,通过在记忆之上应用浅层重新排序器,大幅提高检索质量,成本较低;2)结合多任务训练,学习通用和更高质量的记忆和实时编码器。GLIMMER在KILT知识密集型任务基准测试中相比LUMEN和FiD,以更快的速度取得了性能上的显著增益。
大规模视觉语言模型(VLM)在语言引导搜索应用中展现出令人印象深刻的成果。虽然这些模型允许类别级别的查询,但目前在针对视频中出现特定对象实例(例如“我的狗饼干”)的个性化搜索方面仍然存在困难。我们提出以下三点贡献来解决这一问题。首先,我们描述了一种元个性化预训练VLM的方法,即学习如何在测试时个性化VLM以在视频中进行搜索。我们的方法通过学习针对每个实例的新颖词嵌入来扩展VLM的标记词汇表。为了仅捕获特定实例的特征,我们将每个实例嵌入表示为共享和学习的全局类别特征的组合。其次,我们提出在没有明确人类监督的情况下学习这种个性化的方法。我们的方法利用VLM嵌入空间中的转录和视觉语言相似性自动识别视频中命名视觉实例的时刻。最后,我们介绍了This-Is-My,一个个人视频实例检索基准。我们在This-Is-My和DeepFashion2上评估了我们的方法,并展示我们在后者数据集上相对于现有技术取得了15%的改进。
多轨音乐转录旨在将音乐音频输入同时转录为多个乐器的乐谱。这是一项非常具有挑战性的任务,通常需要更复杂的模型才能取得令人满意的结果。此外,先前的研究大多集中在常规乐器的转录上,而忽略了通常是音乐中最重要的信号源的人声。在本文中,我们提出了一种新颖的深度神经网络架构,名为Perceiver TF,用于对音频输入的时频表示进行多轨转录建模。Perceiver TF通过引入一个具有额外Transformer层的分层扩展来增强Perceiver架构,以建模时间上的连贯性。因此,我们的模型继承了Perceiver的优势,具有更好的可扩展性,使其能够很好地处理单个模型中许多乐器的转录。在实验中,我们以多任务学习的方式训练Perceiver TF来建模12个乐器类别以及人声。我们的结果表明,所提出的系统在各种公共数据集上优于最先进的对手(例如MT3和SpecTNT)。