每日精选AI研究论文及翻译
我们介绍了Kosmos-2,一个多模态大型语言模型(MLLM),使其具备感知物体描述(如边界框)并将文本与视觉世界联系起来的新能力。具体而言,我们将指代表达式表示为Markdown中的链接,即``[文本范围](边界框)'',其中物体描述是位置标记的序列。结合多模态语料库,我们构建了大规模的图像文本配对数据(称为GrIT)来训练模型。除了MLLM的现有功能(如感知一般模态、遵循指令和执行上下文学习)之外,Kosmos-2还将接地能力整合到下游应用程序中。我们在广泛的任务上评估了Kosmos-2,包括(i)多模态接地,如指代表达理解和短语接地,(ii)多模态引用,如指代表达生成,(iii)感知语言任务,以及(iv)语言理解和生成。这项工作为“具象智能”(Embodiment AI)的发展奠定了基础,并揭示了语言、多模态感知、行动和世界建模的重大融合,这是通往人工通用智能的关键一步。数据、演示和预训练模型可在https://aka.ms/kosmos-2获取。
随着预训练的大型语言模型的进展,构建一个统一的模型用于语言和其他多模态数据(如动作)的探索仍然具有挑战性且迄今未被触及。幸运的是,人类动作展现出一种类似于人类语言的语义耦合,通常被视为一种身体语言形式。通过将语言数据与大规模动作模型融合,可以实现能够增强与动作相关任务性能的动作语言预训练。基于这一观点,我们提出了MotionGPT,这是一个统一、多功能且用户友好的动作语言模型,用于处理多个与动作相关的任务。具体来说,我们采用离散向量量化来处理人类动作,并将3D动作转换为动作标记,类似于单词标记的生成过程。在这个“动作词汇”的基础上,我们以统一的方式对动作和文本进行语言建模,将人类动作视为一种特定的语言。此外,受提示学习的启发,我们使用动作语言数据的混合进行MotionGPT的预训练,并在基于提示的问答任务上进行微调。大量实验证明,MotionGPT在包括文本驱动动作生成、动作字幕、动作预测和动作插值在内的多个动作任务上取得了最先进的性能。
精确可控的图像编辑是一项具有挑战性的任务,吸引了相当大的关注。最近,DragGAN实现了一个交互式基于点的图像编辑框架,并以像素级精度实现了令人印象深刻的编辑结果。然而,由于这种方法基于生成对抗网络(GAN),其通用性受到预训练GAN模型容量的上限约束。在这项工作中,我们将这样的编辑框架扩展到扩散模型,并提出了DragDiffusion。通过利用大规模预训练的扩散模型,我们极大地提高了交互式基于点的编辑在现实场景中的适用性。虽然大多数现有基于扩散的图像编辑方法是基于文本嵌入的,DragDiffusion优化了扩散潜在以实现精确的空间控制。尽管扩散模型以迭代方式生成图像,但我们凭经验表明,在一个单一步骤中优化扩散潜在就足以生成连贯的结果,使DragDiffusion能够高效完成高质量的编辑。在广泛的具有挑战性的案例(如多对象、不同对象类别、各种风格等)上进行的大量实验展示了DragDiffusion的多功能性和通用性。
分割任意模型(SAM)是一个由提示引导的视觉基础模型,用于从背景中剪切出感兴趣的对象。自Meta研究团队发布SA项目以来,SAM因其令人印象深刻的零次迁移性能和与其他模型兼容的高通用性而受到了广泛关注,可用于高级视觉应用,如具有细粒度控制的图像编辑。许多此类用例需要在资源受限的边缘设备上运行,如移动应用程序。在这项工作中,我们旨在通过用轻量级图像编码器替换笨重的图像编码器,使SAM适用于移动设备。按照原始SAM论文中训练这样一个新SAM的天真方式会导致不令人满意的性能,特别是当训练资源有限时。我们发现,这主要是由图像编码器和掩模解码器的耦合优化引起的,基于这一发现,我们提出了解耦蒸馏。具体而言,我们从原始SAM中的图像编码器ViT-H中提炼知识,转移到一个轻量级图像编码器,该编码器可以自动与原始SAM中的掩模解码器兼容。训练可以在单个GPU上在不到一天的时间内完成,得到的轻量级SAM被称为MobileSAM,体积缩小了60多倍,但性能与原始SAM相当。对于推理速度,MobileSAM每张图像运行约10毫秒:图像编码器为8毫秒,掩模解码器为2毫秒。凭借卓越的性能和更高的通用性,我们的MobileSAM比同时进行的FastSAM小7倍,快4倍,更适合移动应用程序。MobileSAM项目的代码可在https://github.com/ChaoningZhang/MobileSAM上找到。
尽管大型语言模型(LLMs)最近取得了令人瞩目的成就,但在部署方面成本昂贵,特别是对于涉及长内容生成的应用,如对话系统和故事写作。通常,除了模型参数外,存储在GPU内存中的大量瞬态状态信息,称为KV缓存,随着序列长度和批量大小呈线性扩展。在本文中,我们介绍了一种实现KV缓存的新方法,显著减少了其内存占用。我们的方法基于一个显著观察,即在计算注意力分数时,一小部分标记贡献了大部分价值。我们称这些标记为重要标记(H_2)。通过全面调查,我们发现(i)H_2的出现是自然的,并且与文本中标记的频繁共现强相关,以及(ii)删除它们会导致显著的性能下降。基于这些观察,我们提出了重要标记预测器(H_2O),这是一种KV缓存驱逐策略,动态保留最近和H_2标记的平衡。我们将KV缓存驱逐问题形式化为一个动态子模块问题,并证明(在温和假设下)我们的新型驱逐算法具有理论保证,可以帮助指导未来的工作。我们通过OPT、LLaMA和GPT-NeoX在广泛的任务范围内验证了我们算法的准确性。我们使用20%重要标记实现的H_2O相比三个领先的推理系统DeepSpeed Zero-Inference、Hugging Face Accelerate和FlexGen,将OPT-6.7B和OPT-30B的吞吐量提高了最多29倍、29倍和3倍。在相同的批量大小下,H_2O可以将延迟降低最多1.9倍。代码可在https://github.com/FMInference/H2O找到。
目前,预训练能力强大的大型语言模型(LLMs)的当前趋势主要集中在模型规模和数据集规模的扩展上。然而,预训练数据的质量是训练强大LLMs的重要因素,但这是一个尚未完全表征的模糊概念。因此,我们使用最近提出的Task2Vec多样性系数来确立和理解数据质量的形式方面,以超越单纯的规模。具体而言,我们测量公开可用的预训练数据集的多样性系数,以证明与理论下限和上限相比,它们的形式多样性较高。此外,为了增强对多样性系数的信心,我们进行可解释性实验,并发现该系数与多样性的直观特性一致,例如,随着潜在概念数量的增加,系数也会增加。我们得出结论,多样性系数是可靠的,表明其在公开可用的LLM数据集中较高,并推测可以用于构建LLMs的有用多样数据集。
在实际和理论机器学习中的一个核心概念是弱学习器,即在任何给定的数据分布上,能够实现比随机性能更好(即使是略微)的分类器。这些弱学习器构成了经典机器学习方法的实际基础,比如 boosting。在这项工作中,我们阐明了基于提示的大型语言模型可以有效地作为这种弱学习器。具体来说,我们展示了在应用于表格数据的 boosting 算法中将大型语言模型(LLM)作为弱学习器的用法。我们表明,通过提供(根据感兴趣的分布适当抽样的)表格数据样本的文本描述,LLM 可以生成样本摘要,作为分类的模板,并实现在这一任务上作为弱学习器的目标。我们将这些模型整合到 boosting 方法中,在某些情况下,可以利用LLM内部的知识来超越传统基于树的 boosting 方法。该模型在一些情境下优于少样本学习,甚至有时甚至胜过更复杂的微调程序,特别是对涉及少量数据点的任务。结果展示了基于提示的LLM不仅可以作为少样本学习器本身,还可以作为更大的机器学习流程的组成部分的潜力。
现代深度学习必不可少的是大规模数据集。倡导者认为,理解这些方法需要数据集透明度(例如“数据集策划、动机、组成、收集过程等…”)。然而,几乎没有人建议公开详细定义和提供给标注者的视觉类别示例 - 这些信息对于理解每个数据集中注释结构至关重要。这些标签是公共数据集的核心,然而很少有数据集包括用于生成它们的指示。我们引入了一个新任务,即标签指令生成,以解决缺失的公开可用标签指令。在标签指令生成中,我们拿一个已经合理标注的数据集,并:1)生成一组在数据集中每个类别上视觉上代表性的示例;2)为每个示例提供相应的文本标签。我们引入了一个框架,无需模型训练即可解决此任务,并包括一个新创建的快速检索系统,利用一个大型、预训练的视觉和语言模型。这个框架充当人类标注者的代理,可以帮助生成最终的标签指令集并评估其质量。我们的框架生成了数据集类别的多种不同的视觉和文本表示。优化后的指令集在NuImages上比我们最强基线高出了7.06 mAP,在COCO上高出了12.9 mAP。
在各种数据集上训练的大型变压器模型展现出了在上下文中学习的显著能力,实现了高Few-shot性能,能够在未经明确训练的任务上表现出色。本文研究了变压器在决策问题中的上下文学习能力,即强化学习(RL)用于赌博机和马尔可夫决策过程。为此,我们引入并研究了决策预训练变压器(DPT),这是一种监督预训练方法,其中变压器根据查询状态和上下文交互数据集预测最佳动作,涵盖了各种任务。尽管这一过程简单,但产生了一个具有几个令人惊讶能力的模型。我们发现,预训练变压器可以在上下文中解决各种RL问题,展现出在线探索和离线保守性,尽管并未经过明确训练。该模型还可以推广到预训练分布之外的新任务,并自动调整其决策策略以适应未知结构。从理论上讲,我们展示了DPT可以被视为贝叶斯后验抽样的高效实现,这是一种经过证明的样本高效RL算法。我们进一步利用这一联系,对DPT产生的上下文算法的遗憾提供保证,并证明它可以比用于生成预训练数据的算法学习得更快。这些结果表明了在变压器中灌输强大的上下文决策能力的一个有前途但简单的途径。
通用预训练模型(“基础模型”)使从业者能够利用比从头开始学习所需数据规模显著较小的数据集,为个别机器学习问题提供可泛化的解决方案。此类模型通常在大型和多样化的数据集上进行训练,采用弱监督,消耗比任何单个下游应用程序可用的训练数据要多得多。本文介绍了视觉导航Transformer(ViNT),这是一个旨在将通用预训练模型的成功带入基于视觉的机器人导航领域的基础模型。ViNT通过一个通用的目标达成目标进行训练,可与任何导航数据集一起使用,并采用灵活的基于Transformer的架构来学习导航功能并实现对各种下游导航任务的高效适应。ViNT在许多现有导航数据集上进行训练,包括来自各种不同机器人平台的数百小时的机器人导航,并展现出积极的迁移效果,胜过专门训练在单一数据集上的专家模型。ViNT可以通过基于扩散的子目标提议来探索新领域,并且在配备长程启发式方法时可以解决长达公里级别的导航问题。ViNT还可以通过一种受提示调整启发的技术来适应新的任务规范,其中目标编码器被替换为嵌入到相同目标令牌空间的另一任务模态(例如GPS航点或路由命令的编码)。ViNT的这种灵活性和适应各种下游问题领域的能力将其确立为移动机器人的有效基础模型。有关视频、代码和模型检查点,请访问我们的项目页面:https://visualnav-transformer.github.io。
去噪扩散概率模型(DDPMs)已被证明在大量数据训练时能够合成高质量且具有显著多样性的图像。典型的扩散模型和现代大规模条件生成模型,如文本到图像生成模型,在极其有限的数据上微调时容易出现过拟合问题。现有研究已经探索了使用包含少量图像的参考集进行主题驱动生成。然而,之前很少有研究探讨基于DDPM的面向领域的生成,旨在学习目标领域的共同特征同时保持多样性。本文提出了一种新领域工作室(DomainStudio)方法,通过有限数据将在大规模源数据集上预训练的DDPMs调整到目标领域。该方法旨在保持源领域提供的主题多样性,并在目标领域获得高质量和多样化的适应样本。我们建议保持适应样本之间的相对距离,以实现相当大的生成多样性。此外,我们进一步增强了对高频细节的学习,以提高生成质量。我们的方法适用于无条件和有条件的扩散模型。这项工作首次尝试使用扩散模型实现无条件的少样本图像生成,实现了比当前最先进的基于GAN的方法更好的质量和更大的多样性。此外,这项工作还显著减轻了有条件生成的过拟合问题,并实现了高质量的面向领域生成,进一步扩展了现代大规模文本到图像模型的适用场景。
大规模文本到图像扩散模型显著改进了生成图像建模的最新技术,并允许直观、强大的用户界面驱动图像生成过程。使用文本表达空间约束,例如将特定对象定位在特定位置,使用文本是繁琐的;当前基于文本的图像生成模型无法准确地遵循这些指令。本文考虑从与图像画布上的部分相关联的文本生成图像,这将直观的自然语言界面与对生成内容进行精确空间控制相结合。我们提出了ZestGuide,一种零样本分割引导方法,可插入预训练的文本到图像扩散模型中,而无需额外训练。它利用可以从交叉注意力层中提取的隐式分割地图,用于将生成与输入蒙版对齐。我们的实验结果将高图像质量与生成内容与输入分割准确对齐相结合,从定量和定性上都优于以前的工作,包括需要在具有相应分割的图像上进行训练的方法。与以前在零样本分割条件下的图像生成中的最新技术Paint with Words相比,我们在COCO数据集上的mIoU分数提高了5到10个点,而FID分数相似。
人类在复杂的长期软体操纵任务中表现出色,通过灵活运用工具:面包烘焙需要用刀切割面团,用擀面杖擀平。工具使用被视为人类认知的标志,但在自主机器人中,由于理解工具-物体交互的挑战,其应用仍受限制。在这里,我们开发了一个智能机器人系统,RoboCook,它可以感知、建模和操纵具有不同工具的弹塑性物体。RoboCook使用点云场景表示,用图神经网络(GNNs)模拟工具-物体交互,并将工具分类与自监督策略学习相结合,制定操纵计划。我们展示,仅通过每种工具20分钟的真实世界互动数据,通用机器人手臂就能学会复杂的长期软体操纵任务,如制作饺子和字母饼干。广泛的评估表明,RoboCook明显优于最先进的方法,在面对严重外部干扰时表现出鲁棒性,并展示对不同材料的适应能力。
尽管多模态任务取得了令人期待的进展,但当前的大型多模态模型(LMM)很容易在描述图像和人类指令之间出现幻觉性不一致。本文通过引入首个大规模且多样化的视觉指令调整数据集,名为大规模稳健视觉(LRV)-指令,来解决这一问题。我们的数据集包含由GPT4生成的12万条视觉指令,涵盖了16个视觉与语言任务,其中包括开放式指令和答案。与现有研究主要关注正面指令样本不同,我们设计了LRV-指令,以包含正面和负面指令,以实现更稳健的视觉指令调整。我们的负面指令在两个语义层面上设计:(i)不存在元素操作和(ii)存在元素操作。为了有效衡量LMM产生的幻觉,我们提出了GPT4辅助视觉指令评估(GAVIE),这是一种新方法,可评估视觉指令调整,无需人工标注的真实答案,并且可以适应多样的指令格式。我们进行了全面的实验来研究LMM的幻觉现象。我们的结果表明,现有的LMM在面对我们的负面指令时会出现显著的幻觉,特别是在存在元素操作指令中。此外,通过在LRV-指令上对MiniGPT4进行微调,我们成功减轻了幻觉,同时在使用比最先进方法更少的训练数据的情况下,提高了在公共数据集上的性能。此外,我们观察到在训练数据中正负实例比例平衡会导致更稳健的模型。我们的项目链接可在 https://fuxiaoliu.github.io/LRV/ 找到。
涉及解决微分方程的生成过程,如扩散模型,通常需要平衡速度和质量。基于ODE的采样器速度快,但性能会达到平台期,而基于SDE的采样器在增加采样时间的代价下提供更高的样本质量。我们将这种差异归因于采样误差:ODE采样器涉及较小的离散化误差,而SDE中的随机性会收缩积累的误差。基于这些发现,我们提出了一种名为“重启”的新型采样算法,以更好地平衡离散化误差和收缩。该采样方法在额外的前向步骤中交替添加大量噪声,严格遵循反向ODE。从经验上看,“重启”采样器在速度和准确性上均超过了先前的SDE和ODE采样器。在CIFAR-10 / ImageNet 64×64上,“重启”不仅优于先前最佳的SDE结果,而且将采样速度提高了10倍/2倍。此外,在可比较的采样时间内,“重启”比ODE采样器获得了显着更好的样本质量。此外,“重启”在大规模文本到图像的稳定扩散模型中更好地平衡了文本图像对齐/视觉质量与多样性,该模型在LAION 512×512上进行了预训练。代码可在https://github.com/Newbeeer/diffusion_restart_sampling找到。
Transformer模型在计算机视觉领域展现出巨大潜力,继在语言任务中取得成功后。Swin Transformer是其中之一,在准确性方面优于基于卷积的架构,同时在效率上优于Vision Transformer(ViT)及其变体,后者相对于输入大小具有二次复杂度。Swin Transformer具有移动窗口,允许跨窗口连接,同时将自注意力计算限制在非重叠的局部窗口内。然而,移动窗口引入了内存复制操作,这占据了其运行时间的相当大部分。为了缓解这一问题,我们提出了Swin-Free,其中我们在各阶段应用尺寸变化的窗口,而不是移动窗口,以实现局部窗口之间的交叉连接。通过这种简单的设计更改,Swin-Free在推断时比Swin Transformer运行更快,并具有更高的准确性。此外,我们还提出了几种Swin-Free变体,这些变体比其Swin Transformer对应物更快。
对于3D物体操作,那些构建显式3D表示的方法比仅依赖摄像头图像的方法表现更好。但是,使用诸如体素之类的显式3D表示会带来巨大的计算成本,对可扩展性产生不利影响。在这项工作中,我们提出了RVT,这是一个用于3D操作的多视图变换器,既具有可扩展性又准确性。RVT的一些关键特点包括注意机制,用于跨视图聚合信息,并从机器人工作区域周围的虚拟视图重新渲染摄像头输入。在模拟中,我们发现单个RVT模型在18个RLBench任务中表现良好,有249个任务变体,相对成功率比现有的最先进方法(PerAct)高出26%。它的训练速度也比PerAct快36倍,同时实现相同性能,并且推断速度比PerAct快2.3倍。此外,RVT可以仅通过少量(约10个)每项任务的演示在现实世界中执行各种操作任务。我们在https://robotic-view-transformer.github.io/提供了视觉结果、代码和训练模型。
概率预测对于在未来天气方面做出决策至关重要,特别是在不确定性下。主导方法是利用一组预测来表示和量化操作性数值天气预测中的不确定性。然而,生成这些预测集合在计算上是昂贵的。在本文中,我们提出通过利用生成人工智能领域的最新进展,在规模上生成集合预测。我们的方法从包含5个成员的GEFS再预测数据集中学习数据驱动的概率扩散模型。然后可以高效地对模型进行抽样,以生成真实的天气预测,条件是操作性GEFS预测系统的几个成员。生成的集合在对ERA5再分析进行评估时具有与完整GEFS 31成员集合相似的预测技能,并且很好地模拟了大型基于物理的集合的统计数据。我们还将相同方法应用于开发扩散模型以进行生成后处理:该模型直接学习通过在训练期间利用再分析数据作为标签来纠正模拟预测系统中存在的偏差。从这种生成后处理模型中产生的集合显示出更高的可靠性和准确性,特别是在极端事件分类方面。总的来说,它们比GEFS操作性集合更可靠,并更准确地预测极端天气的概率。我们的模型以不到操作性GEFS系统计算成本的1/10实现了这些结果。