每日精选AI研究论文及翻译
我们认为,为了实现超人类智能体,未来的模型需要超人类反馈,以提供充分的训练信号。目前的方法通常是从人类偏好中训练奖励模型,然后可能受限于人类表现水平,其次,这些独立的冻结奖励模型无法在LLM训练期间学习改进。在这项工作中,我们研究了自我奖励语言模型,其中语言模型本身通过LLM作为评判者提示在训练期间提供自己的奖励。我们展示了在迭代DPO训练期间,不仅遵循指令的能力得到改善,而且提供高质量奖励给自己的能力也得到提升。在我们方法的三次迭代上对Llama 2 70B进行微调,得到的模型在AlpacaEval 2.0排行榜上胜过许多现有系统,包括Claude 2、Gemini Pro和GPT-4 0613。虽然这只是一项初步研究,但这项工作为可能不断改进两个方面的模型打开了大门。
最近,具有高效硬件感知设计的状态空间模型(SSMs),即Mamba,展现出在长序列建模方面具有巨大潜力。纯粹基于SSMs构建高效通用的视觉骨干是一个吸引人的方向。然而,由于视觉数据的位置敏感性和对全局上下文进行视觉理解的要求,为SSMs表示视觉数据是具有挑战性的。在本文中,我们展示了视觉表示学习对自注意力的依赖并非必要,并提出了一种新的具有双向Mamba块(Vim)的通用视觉骨干,该骨干通过位置嵌入标记图像序列,并利用双向状态空间模型压缩视觉表示。在ImageNet分类、COCO目标检测和ADE20k语义分割任务中,Vim相较于DeiT等成熟的视觉Transformer表现出更高性能,同时也显著提高了计算和内存效率。例如,在1248x1248分辨率图像上进行批量推断提取特征时,Vim比DeiT快2.8倍,节省86.8%的GPU内存。结果表明,Vim能够克服执行高分辨率图像的Transformer式理解时的计算和内存约束,并有潜力成为视觉基础模型的下一代骨干。代码可在https://github.com/hustvl/Vim找到。
在这项工作中,我们介绍了ChatQA,这是一系列会获得GPT-4级别准确性的对话问答(QA)模型。具体而言,我们提出了一种两阶段指导调整方法,可以显著提高大型语言模型(LLMs)的零样本对话问答结果。为了处理对话问答中的检索,我们在多轮QA数据集上对密集的检索器进行微调,这提供了与使用最先进的查询重写模型相当的结果,同时大幅降低了部署成本。值得注意的是,我们的ChatQA-70B在10个对话问答数据集的平均分上可以胜过GPT-4(54.14比53.90),而且不依赖于OpenAI GPT模型的任何合成数据。
为了增强大型语言模型(LLMs)的推理能力,一种方法是利用链式思维(CoT)注释进行监督微调(SFT)。然而,这种方法并没有展现出足够强大的泛化能力,因为训练仅依赖于给定的CoT数据。例如,在数学问题解决中,通常在训练数据中每个问题只有一条注释的推理路径。直觉上,让算法从给定问题学习多条注释的推理路径会更好。为了解决这个问题,我们提出了一种简单而有效的方法,称为强化微调(ReFT),以增强学习LLMs用于推理的泛化能力,以数学问题解决为例。ReFT首先通过SFT对模型进行预热,然后采用在线强化学习,特别是本文中的PPO算法,进一步微调模型,其中根据问题自动采样大量推理路径,并且奖励自然地来自地面真实答案。在GSM8K、MathQA和SVAMP数据集上进行的大量实验表明,ReFT明显优于SFT,并且通过结合推理时策略(如多数投票和重新排序)可能进一步提升性能。值得注意的是,ReFT通过从与SFT相同的训练问题中学习而无需依赖额外或增广的训练问题来获得改进。这表明ReFT具有更强的泛化能力。
由于可以将场景分解为多个粒度级别,因此分组本质上是模糊的——挖掘机的车轮应该被视为单独的部分还是整体的一部分?我们提出了一种名为Radiance Fields的Group Anything with Radiance Fields (GARField)方法,用于从姿态图像输入中将3D场景分解为语义上有意义的组的层次结构。为了做到这一点,我们通过物理尺度来接受分组的模糊性:通过优化一个尺度条件的3D亲和特征场,世界中的一个点可以属于不同尺寸的不同组。我们通过一组由Segment Anything (SAM)提供的2D掩模来优化这个场,以一种尊重由粗到细层次结构的方式,利用尺度来一致地融合来自不同视点的冲突掩模。通过这个场,我们可以通过自动树构建或用户交互推导可能分组的层次结构。我们在各种野外场景上评估了GARField,并发现它有效地在许多级别提取组:对象群、对象和各种子部分。GARField固有地代表多视角一致的分组,并产生比输入SAM掩模更高保真度的组。GARField的分层分组可能具有令人兴奋的下游应用,如3D资产提取或动态场景理解。请访问项目网站https://www.garfield.studio/。
3D视觉-语言对齐,专注于将语言与3D物理环境相匹配,是体现具象代理发展的基石。与2D领域最新进展相比,在3D场景中对语言进行对齐面临几个重大挑战:(i) 由于多样的物体配置、丰富的属性和错综复杂的关系,3D场景的固有复杂性;(ii) 缺乏配对的3D视觉-语言数据来支持基于对齐的学习;以及(iii) 缺乏一个统一的学习框架来从基于对齐的3D数据中提炼知识。在这项工作中,我们旨在通过系统地提升室内环境中的3D视觉-语言学习来解决这三个主要挑战。我们引入了首个百万规模的3D视觉-语言数据集SceneVerse,包含约68K个3D室内场景,由人类标注和我们可扩展的基于场景图的生成方法得出的250万个视觉-语言配对组成。我们展示了这种扩展性使得可以使用统一的预训练框架Grounded Pre-training for Scenes (GPS)进行3D视觉-语言学习。通过大量实验,我们展示了GPS的有效性,实现了所有现有3D视觉对齐基准上的最先进性能。SceneVerse和GPS的巨大潜力通过在具有挑战性的3D视觉-语言任务中的零样本迁移实验中得以揭示。项目网站:https://scene-verse.github.io。
世界模型在理解和预测世界动态的过程中发挥着至关重要的作用,这对于视频生成至关重要。然而,现有的世界模型局限于特定场景,如游戏或驾驶,限制了其捕捉一般世界动态环境复杂性的能力。因此,我们引入了WorldDreamer,这是一种开创性的世界模型,旨在促进对一般世界物理和运动的全面理解,从而显著增强视频生成的能力。受大型语言模型成功的启发,WorldDreamer将世界建模框架化为一项无监督的视觉序列建模挑战。这是通过将视觉输入映射到离散标记并预测被屏蔽的标记来实现的。在此过程中,我们结合多模态提示以促进世界模型内的交互。我们的实验表明,WorldDreamer在生成涵盖不同场景的视频方面表现出色,包括自然场景和驾驶环境。WorldDreamer展示了在执行诸如文本到视频转换、图像到视频合成和视频编辑等任务方面的多功能性。这些结果突显了WorldDreamer在捕捉多样化一般世界环境中的动态元素方面的有效性。
基于扩散的视频生成在学术界和工业界都受到了广泛关注,并取得了相当大的成功。然而,目前的努力主要集中在单目标或单任务视频生成上,例如由文本驱动的生成,由图像驱动的生成,或者由文本和图像的组合驱动的生成。这不能完全满足现实应用场景的需求,因为用户可能以灵活的方式输入图像和文本条件,可以是单独输入,也可以是组合输入。为了解决这个问题,我们提出了一个统一模态视频生成系统,能够处理跨文本和图像模态的多个视频生成任务。为此,我们从生成自由度的角度重新审视系统内的各种视频生成任务,并将它们分类为高自由度和低自由度视频生成类别。对于高自由度视频生成,我们采用多条件交叉注意力来生成与输入图像或文本语义对齐的视频。对于低自由度视频生成,我们引入偏置高斯噪声来替代纯随机高斯噪声,有助于更好地保留输入条件的内容。我们的方法在公共学术基准MSR-VTT上实现了最低的Fr\'echet视频距离(FVD),在人类评估方面超越了当前的开源方法,并与当前的闭源方法Gen2不相上下。更多样本,请访问https://univg-baidu.github.io。
随着大型语言模型(LLMs)在各种应用中的普及,对其部署和扩展变得至关重要,要求高吞吐量和低延迟的服务系统。现有框架在平衡这些要求方面存在困难,特别是对于具有长提示的工作负载。本文介绍了DeepSpeed-FastGen,这是一个采用动态SplitFuse策略的系统,该策略是一种新颖的提示和生成组合策略,可提供高达2.3倍的有效吞吐量,平均降低2倍的延迟,以及高达3.7倍的更低(标记级别)尾延迟,相较于vLLM等最先进的系统。我们利用DeepSpeed-MII和DeepSpeed-Inference的协同组合,为LLMs提供高效且易于使用的服务系统。DeepSpeed-FastGen的先进实现支持一系列模型,并提供非持久性和持久性部署选项,满足从交互会话到长时间运行应用的各种用户场景。我们提出了详细的基准测试方法,通过延迟-吞吐量曲线分析性能,并通过负载平衡调查可扩展性。我们的评估显示,在各种模型和硬件配置中,吞吐量和延迟均有显著改善。我们讨论了未来增强的路线图,包括更广泛的模型支持和新的硬件后端。DeepSpeed-FastGen代码已经准备好供社区参与和贡献。
文本到视频生成旨在根据给定提示生成视频。 最近,几种商用视频模型能够生成合理的视频,具有最小的噪音、出色的细节和高美学评分。 然而,这些模型依赖于大规模、经过良好过滤、高质量的视频,这些视频对社区不可见。许多现有研究作品使用低质量的WebVid-10M数据集训练模型,很难生成高质量的视频,因为这些模型是针对WebVid-10M进行优化的。在这项工作中,我们探讨了从稳定扩散扩展的视频模型的训练方案,并调查了利用低质量视频和合成高质量图像来获得高质量视频模型的可行性。我们首先分析了视频模型的空间和时间模块之间的关联以及向低质量视频的分布转变。我们观察到,训练所有模块会导致空间和时间模块之间的耦合比仅训练时间模块更强。基于这种更强的耦合,我们通过用高质量图像微调空间模块将分布转变为更高质量,而不会出现运动退化,从而产生通用高质量视频模型。我们进行评估以展示所提出方法的优越性,特别是在图片质量、动作和概念构成方面。
我们提出了可扩展插值变换器(SiT),这是建立在扩散变换器(DiT)骨干上的一类生成模型。插值框架允许以比标准扩散模型更灵活的方式连接两个分布,这使得可以对建立在动态传输基础上的生成模型的各种设计选择进行模块化研究:使用离散还是连续时间学习,决定模型学习的目标,选择连接分布的插值器,以及部署确定性或随机采样器。通过精心引入上述要素,SiT在条件ImageNet 256x256基准测试中,使用完全相同的骨干、参数数量和GFLOPs,能够在各种模型规模上均优于DiT。通过探索各种扩散系数,这些系数可以与学习分开调节,SiT实现了2.06的FID-50K分数。
我们提出了TextureDreamer,这是一种新颖的图像引导纹理合成方法,可以将可重光纹理从少量输入图像(3至5张)转移到跨越任意类别的目标3D形状。纹理创建是视觉和图形领域的一个关键挑战。工业公司雇佣经验丰富的艺术家为3D资产手工制作纹理。传统方法需要密集采样的视图和精确对齐的几何形状,而基于学习的方法局限于数据集中特定类别的形状。相比之下,TextureDreamer可以从现实世界环境中将高度详细、复杂的纹理转移到任意对象,仅需几张随意拍摄的图像,潜在地极大地民主化了纹理创建。我们的核心思想,即个性化几何感知分数蒸馏(PGSD),汲取了最近扩散模型方面的进展,包括用于纹理信息提取的个性化建模、用于详细外观合成的变分分数蒸馏,以及带有ControlNet的显式几何指导。我们的整合和几个重要修改显著提高了纹理质量。对跨越不同类别的真实图像进行的实验表明,TextureDreamer能够成功地将高度逼真、语义丰富的纹理转移到任意对象,超越了先前最先进技术的视觉质量。
本文介绍了一项关于本地随机梯度下降(Local-SGD)的实证研究,也被称为联邦平均。这是一种分布式优化方法,其中每个设备在通信过程中执行多个随机梯度下降更新。在训练语言模型方面,我们提出了一种{\it 异步} Local-SGD 的方法,即每个工作节点在完成其随机梯度下降步骤后立即更新全局参数。我们通过研究工作者硬件异构性、模型大小、工作者数量和优化器如何影响学习性能来进行全面调查。我们发现,使用简单实现时,尽管更新(全局)模型参数更频繁,异步 Local-SGD 收敛所需迭代次数比其同步对应物更多。我们确定了当工作者梯度过时时,全局参数上的动量加速是一个关键挑战。我们提出了一种新方法,利用延迟的 Nesterov 动量更新,并根据工作者的计算速度调整其本地训练步骤。通过在 C4 数据集上评估具有高达 150M 参数的模型,这种方法在每次更新步骤的困惑度方面与同步 Local-SGD 的性能相匹配,并在挂钟时间方面显著超越它。
为了解决文本作为文本条件扩散模型中准确布局表示的局限性,许多研究结合了额外信号来调节生成图像中的某些属性。尽管取得了成功,先前的研究并未考虑这些属性在三维平面中的具体定位。在这个背景下,我们提出了一个条件扩散模型,它将对三维物体放置的控制与来自多个示例图像的全局风格语义的解耦表示相结合。具体而言,我们首先引入深度解耦训练,利用物体的相对深度作为估计器,使模型能够通过使用合成图像三元组来识别未见物体的绝对位置。我们还引入了软引导,一种在不使用任何额外定位线索的情况下将全局语义施加到目标区域的方法。我们的集成框架Compose and Conquer(CnC)将这些技术统一起来,以解耦方式定位多个条件。我们证明了我们的方法允许感知不同深度的物体,同时为组合具有不同全局语义的局部物体提供了多功能框架。源代码:https://github.com/tomtom1103/compose-and-conquer/
神经辐射场(Neural Radiance Fields,NeRF)在给定一组2D图像时表现出卓越的新视角合成(Novel View Synthesis,NVS)性能。然而,NeRF的训练需要准确的摄像机姿势,通常通过运动结构(Structure-from-Motion,SfM)流程获得。最近的研究尝试放宽这一约束,但它们仍然经常依赖可以优化的良好初始姿势。在这里,我们旨在消除对姿势初始化的要求。我们提出了增量置信(Incremental CONfidence,ICON),这是一种用于从2D视频帧训练NeRF的优化过程。ICON仅假设平滑的摄像机运动来估计姿势的初始猜测。此外,ICON引入了“置信度”:这是一种用于动态重新加权梯度的自适应模型质量度量。ICON依赖于高置信度姿势来学习NeRF,并依赖于高置信度的3D结构(由NeRF编码)来学习姿势。我们展示了,ICON在没有先前姿势初始化的情况下,在CO3D和HO3D方面均比使用SfM姿势的方法表现出更优异的性能。