每日精选AI研究论文及翻译
高效的微调对于将大型语言模型(LLMs)调整到下游任务中至关重要。然而,要在不同模型上实施这些方法需要付出相当大的努力。我们提出了LlamaFactory,这是一个统一的框架,集成了一套尖端的高效训练方法。它允许用户灵活定制100多个LLMs的微调,无需编码,通过内置的Web用户界面LlamaBoard。我们在语言建模和文本生成任务上对我们的框架的效率和有效性进行了实证验证。该框架已在https://github.com/hiyouga/LLaMA-Factory发布,并已获得超过13,000颗星和1,600个分支。
Sora是第一个引起社会广泛关注的大规模通用视频生成模型。自2024年2月由OpenAI推出以来,没有其他视频生成模型能够与Sora的性能或支持广泛视频生成任务的能力相媲美。此外,已完全公开发表的视频生成模型很少,大多数是闭源的。为填补这一空白,本文提出了一个新的多智能体框架Mora,该框架整合了几个先进的视觉人工智能智能体,以复制Sora展示的通用视频生成能力。具体而言,Mora可以利用多个视觉智能体,并成功模仿Sora在各种任务中的视频生成能力,如(1)文本到视频生成,(2)文本条件图像到视频生成,(3)扩展生成的视频,(4)视频到视频编辑,(5)连接视频和(6)模拟数字世界。我们广泛的实验结果表明,Mora在各种任务中实现了接近Sora的性能。然而,从整体上评估时,我们的工作与Sora之间存在明显的性能差距。总之,我们希望这个项目能够通过协作人工智能智能体指导未来视频生成的发展方向。
我们提出了一种新颖的应用进化算法来自动化创建强大的基础模型。虽然模型合并已经成为LLM开发的一种有前途的方法,因为它具有成本效益,但目前仍然依赖人类直觉和领域知识,从而限制了其潜力。在这里,我们提出了一种进化方法,通过自动发现不同开源模型的有效组合,利用它们的集体智慧,而无需大量额外的训练数据或计算资源,从而克服了这一限制。我们的方法在参数空间和数据流空间中运作,允许进行超出单个模型权重的优化。这种方法甚至促进了跨领域合并,生成了具有数学推理能力的日语LLM等模型。令人惊讶的是,我们的日语数学LLM在各种已建立的日语LLM基准测试中取得了最先进的性能,甚至超过了具有更多参数的模型,尽管它们并未明确针对这些任务进行训练。此外,通过我们的方法生成的具有文化意识的日语VLM展示了其在描述日本文化特定内容方面的有效性,胜过了先前的日语VLM。这项工作不仅向开源社区贡献了新的最先进模型,还引入了一种新的自动化模型组合范式,为探索基础模型开发的替代高效方法铺平了道路。
我们介绍了SceneScript,这是一种使用自回归、基于标记的方法,直接生成完整场景模型作为结构化语言命令序列。我们提出的场景表示受到了最近在transformers和LLMs中取得的成功的启发,并与更传统的方法有所不同,传统方法通常将场景描述为网格、体素网格、点云或辐射场。我们的方法通过场景语言编码器-解码器架构直接从编码的视觉数据推断出一组结构化语言命令。为了训练SceneScript,我们生成并发布了一个大规模的合成数据集,名为Aria Synthetic Environments,包含10万个高质量室内场景,具有逼真的、地面真实标注的主体场景漫游渲染。我们的方法在建筑布局估计方面取得了最先进的结果,并在3D物体检测方面取得了竞争性的结果。最后,我们探讨了SceneScript的一个优势,即通过简单添加到结构化语言中便能轻松适应新命令的能力,我们以粗糙3D物体部分重建等任务为例进行了说明。
将视觉模型的规模扩大已成为获得更强大视觉表示的事实标准。在这项工作中,我们讨论了更大视觉模型不再必要的临界点。首先,我们展示了尺度缩放(S^2)的威力,即通过对多个图像尺度运行经过预训练和冻结的较小视觉模型(例如ViT-B或ViT-L),可以在分类、分割、深度估计、多模态LLM(MLLM)基准和机器人操作等方面胜过较大模型(例如ViT-H或ViT-G)。值得注意的是,S^2在V*基准上实现了对MLLM详细理解的最新性能,超越了诸如GPT-4V之类的模型。我们研究了与模型规模扩大相比,S^2作为首选扩展方法的条件。尽管较大模型在处理困难示例时具有更好的泛化能力,但我们展示了较大视觉模型的特征可以很好地由多尺度较小模型的特征近似。这表明,当前大型预训练模型学到的大部分,如果不是全部表示,也可以从多尺度较小模型中获得。我们的结果显示,多尺度较小模型具有与较大模型相当的学习能力,并且使用S^2对较小模型进行预训练可以达到或甚至超过较大模型的优势。我们发布了一个Python软件包,可以通过一行代码将S^2应用于任何视觉模型: https://github.com/bfshi/scaling_on_scales.
利用稳定扩散技术生成个性化肖像已成为一种强大且显著的工具,使用户能够基于特定提示创建高保真度的定制角色头像。然而,现有的个性化方法面临挑战,包括测试时微调、需要多个输入图像、身份保留较低以及生成结果多样性有限。为了克服这些挑战,我们引入了IDAdapter,这是一种无需微调的方法,可以增强从单张面部图像生成个性化图像时的多样性和身份保留。IDAdapter通过将个性化概念融入生成过程中,结合文本和视觉注入以及面部身份损失。在训练阶段,我们将特定身份的多个参考图像的混合特征纳入,以丰富与身份相关的内容细节,引导模型生成比以往作品更具多样化风格、表情和角度的图像。广泛的评估表明我们的方法的有效性,实现了生成图像中的多样性和身份保真度。
奖励模型(RMs)是成功的RLHF的关键,可以将预训练模型与人类偏好对齐,然而对这些奖励模型的评估研究相对较少。评估奖励模型提供了了解用于对齐语言模型的不透明技术及其中嵌入的价值观的机会。迄今为止,对于能力、训练方法或开源奖励模型的描述非常有限。本文提出了RewardBench,一个用于评估的基准数据集和代码库,以增进对奖励模型的科学理解。RewardBench数据集是一个涵盖聊天、推理和安全性的提示-赢-输三元组集合,用于评估奖励模型在具有挑战性、结构化和超出分布范围的查询上的表现。我们为具有微妙但可验证原因(例如错误、不正确事实)的RMs创建了特定的比较数据集,以便确定为何应优选一个答案而不是另一个。在RewardBench排行榜上,我们评估了通过各种方法训练的奖励模型,例如直接MLE训练分类器和Direct Preference Optimization(DPO)的隐式奖励建模,并在一系列数据集上进行评估。我们提出了许多关于拒绝倾向、推理限制以及各种奖励模型在RLHF过程中遵循指令的缺陷的发现,以更好地理解RLHF过程。
最近的进展表明,扩展多模态大型语言模型(MLLMs)有效地提升了在下游多模态任务上的性能。目前流行的MLLM范式,例如LLaVA,通过使用静态视觉-语言映射器将视觉特征转换为类似文本的标记,从而使静态LLMs能够通过视觉指导调整来理解视觉信息的能力。尽管有希望,但共享相同参数的静态调整策略可能会限制在不同下游多模态任务中的性能。鉴此,我们引入了HyperLLaVA,它涉及投影器和LLM参数的自适应调整,分别结合动态视觉专家和语言专家。这些专家源自HyperNetworks,通过视觉和语言指导生成自适应参数变化,从而实现两阶段训练中的动态投影器和LLM建模。 我们的实验表明,我们的解决方案在现有的MLLM基准测试中明显优于LLaVA,包括MME、MMBench、SEED-Bench和LLaVA-Bench。我们的项目可在以下链接找到:https://github.com/DCDmllm/HyperLLaVA。
最近在视图合成和实时渲染方面取得了重大进展,以令人印象深刻的渲染速度实现了逼真的质量。尽管基于辐射场的方法在具有挑战性的场景(如野外捕捉和大规模场景)中实现了最先进的质量,但往往受到与体积渲染相关的过高计算需求的困扰。另一方面,基于高斯飞溅的方法依赖光栅化,自然实现了实时渲染,但在更具挑战性的场景中表现不佳,因为其脆弱的优化启发式方法。在这项工作中,我们提出了RadSplat,这是一种用于复杂场景稳健实时渲染的轻量级方法。我们的主要贡献有三个方面。首先,我们将辐射场用作优化基于点的场景表示的先验和监督信号,从而提高质量并实现更稳健的优化。接下来,我们开发了一种新颖的修剪技术,减少整体点数同时保持高质量,从而实现更小更紧凑的场景表示,并具有更快的推理速度。最后,我们提出了一种新颖的测试时滤波方法,进一步加速渲染并实现扩展到更大的房屋大小场景。我们发现,我们的方法使得复杂捕捉以900+ FPS的速度实现了最先进的合成。
扩散模型长期以来一直受到可扩展性和二次复杂性问题的困扰,尤其是在基于Transformer的结构中。在这项研究中,我们旨在利用名为Mamba的状态空间模型的长序列建模能力,将其适用于视觉数据生成。首先,我们确定了大多数当前基于Mamba的视觉方法中存在的一个关键疏忽,即在Mamba的扫描方案中缺乏对空间连续性的考虑。其次,基于这一洞察,我们引入了一种名为Zigzag Mamba的简单、即插即用、零参数方法,该方法优于基于Mamba的基准线,并且在速度和内存利用方面优于基于Transformer的基准线。最后,我们将Zigzag Mamba与随机插值框架相结合,以研究模型在大分辨率视觉数据集(如FacesHQ 1024x1024和UCF101、MultiModal-CelebA-HQ以及MS COCO 256x256)上的可扩展性。代码将在https://taohu.me/zigma/发布。
单目深度估计对许多下游视觉任务和应用至关重要。目前针对这一问题的现有判别方法存在模糊伪影的局限,而最先进的生成方法由于其随机微分方程(SDE)性质导致采样速度缓慢。我们不是从噪声开始,而是寻求从输入图像到深度图的直接映射。我们观察到,这可以通过流匹配有效地构建,因为其直线轨迹在解空间中提供了效率和高质量。我们的研究表明,预训练的图像扩散模型可以作为流匹配深度模型的充分先验,使得仅在合成数据上进行高效训练即可泛化到真实图像。我们发现,辅助表面法线损失进一步改善了深度估计。由于我们方法的生成性质,我们的模型可可靠地预测其深度估计的置信度。在复杂自然场景的标准基准测试中,尽管只在少量合成数据上进行训练,我们的轻量级方法以有利的低计算成本展现出最先进的性能。
我们提出了一个生成模型,给定一个粗略编辑的图像,合成一个逼真的输出,遵循指定的布局。我们的方法从原始图像中转移细节,并保留其部分特征,同时使其适应新布局定义的光照和背景。我们的关键见解是视频是这一任务的一个强大监督来源:物体和摄像机运动提供了许多关于世界如何随着视角、光照和物理相互作用而变化的观察。我们构建了一个图像数据集,其中每个样本是从同一视频中随机选择的时间间隔内提取的源帧和目标帧的一对。我们使用两个模拟预期测试时用户编辑的运动模型将源帧向目标帧进行变形。我们监督我们的模型将变形图像转换为地面真实值,从预训练扩散模型开始。我们的模型设计明确实现了从源帧到生成图像的细节转移,同时紧密遵循用户指定的布局。我们展示通过使用简单的分割和粗糙的二维操作,我们可以合成一个忠实于用户输入的逼真编辑,同时解决诸如协调编辑对象之间的光照和物理相互作用等二阶效应。
大型语言模型(LLMs)存在一个令人惊讶的失败:当在“A具有特征B”上训练时,它们无法推广到“B是A的特征”,这被称为逆转诅咒。即使进行了数万亿标记的训练,由于Zipf定律,这个问题仍然会出现 - 因此即使我们在整个互联网上进行训练也是如此。本文提出了一种名为逆向训练的替代训练方案,其中所有单词都被使用两次,将可用标记数量翻倍。通过颠倒训练字符串并保留(即不颠倒)选择的子字符串(如实体),LLM在正向和逆向方向上进行训练。我们展示了数据匹配的逆向训练模型在标准任务上提供了比标准模型更优越的性能,并且计算匹配的逆向训练模型在逆转任务上提供了远超越的性能,有助于解决逆转诅咒问题。
视频外部修复是一项具有挑战性的任务,旨在生成输入视频视口之外的视频内容,同时保持帧间和帧内一致性。现有方法在生成质量或灵活性方面存在不足。我们引入了通过输入特定适应性精通视频外部修复的MOTIA(Mastering Video Outpainting Through Input-Specific Adaptation)方法,这是一个基于扩散的流程,利用源视频的固有数据特定模式和图像/视频生成先验进行有效的外部修复。MOTIA包括两个主要阶段:输入特定适应和模式感知外部修复。输入特定适应阶段涉及对单镜头源视频进行高效有效的伪外部修复学习。这个过程鼓励模型识别和学习源视频中的模式,同时弥合标准生成过程与外部修复之间的差距。随后的模式感知外部修复阶段致力于将这些学习到的模式推广,生成外部修复结果。提出了包括空间感知插入和噪声传播在内的额外策略,以更好地利用扩散模型的生成先验和从源视频中获得的视频模式。广泛的评估突显了MOTIA的优越性,在广泛认可的基准测试中胜过现有的最先进方法。值得注意的是,这些进展是在不需要进行广泛的、特定任务的调整的情况下实现的。
尽管在文本到视频(T2V)合成领域取得了巨大进展,开源的T2V扩散模型仍然难以生成具有动态变化和演化内容的较长视频。它们往往合成准静态视频,忽略了文本提示中所暗示的必要的随时间变化的视觉变化。与此同时,将这些模型扩展以实现更长、更动态的视频合成往往在计算上难以实现。为了解决这一挑战,我们引入了“生成时序护理”(GTN)的概念,旨在通过在推理过程中实时改变生成过程,以提高对时序动态的控制,并实现生成更长视频。我们提出了一种名为VSTAR的GTN方法,包括两个关键要素:1)视频摘要提示(VSP)- 基于原始单一提示利用LLM自动生成视频摘要,为更长视频的不同视觉状态提供准确的文本指导;2)时间注意力正则化(TAR)- 一种正则化技术,用于优化预训练的T2V扩散模型的时间注意力单元,实现对视频动态的控制。我们通过实验证明了所提方法在生成更长、视觉吸引人的视频方面优于现有的开源T2V模型。此外,我们分析了应用和未应用VSTAR时实现的时间注意力图,展示了应用我们的方法以减少对所需视觉随时间变化的忽视的重要性。
语言模型(LMs)在各个领域产生了巨大影响。然而,它们在理解3D分子结构方面的固有局限性显著限制了它们在生物分子领域的潜力。为了弥合这一差距,我们专注于3D分子-文本解释,并提出3D-MoLM:3D-分子语言建模。具体而言,3D-MoLM通过为LM配备3D分子编码器,使LM能够解释和分析3D分子。这种集成是通过3D分子-文本投影仪实现的,它连接了3D分子编码器的表示空间和LM的输入空间。此外,为了增强3D-MoLM对跨模态分子理解和指导遵循的能力,我们精心策划了一个3D分子为中心的指导调整数据集 - 3D-MoIT。通过3D分子-文本对齐和3D分子为中心的指导调整,3D-MoLM建立了3D分子编码器和LM的集成。它在下游任务中显著超越了现有基线,包括分子-文本检索、分子字幕生成,以及更具挑战性的开放文本分子问答任务,特别侧重于3D相关属性。
3D生成已经取得了显著的进展,但是从单个图像高效地生成高质量的3D资产仍然具有挑战性。在本文中,我们提出了一种三平面自动编码器,将3D模型编码成紧凑的三平面潜空间,以有效地压缩3D几何和纹理信息。在自动编码器框架内,我们引入了一种3D感知交叉注意力机制,利用低分辨率潜空间表示来查询来自高分辨率3D特征体积的特征,从而增强潜空间的表示能力。随后,我们在这个经过精细调整的潜空间上训练扩散模型。与仅依赖图像嵌入进行3D生成相比,我们提出的方法主张同时利用图像嵌入和形状嵌入作为条件。具体而言,形状嵌入是通过一个以图像嵌入为条件的扩散先验模型估计的。通过全面的实验,我们展示了我们的方法优于最先进的算法,在需要更少的训练数据和时间的情况下实现了卓越的性能。我们的方法能够在单个A100 GPU上仅需7秒的时间生成高质量的3D资产。
为了了解新AI系统可能带来的风险,我们必须了解它的能力和无法做到的事情。在先前工作的基础上,我们引入了一项新的“危险能力”评估计划,并在Gemini 1.0模型上进行试点。我们的评估涵盖四个领域:(1)说服和欺骗;(2)网络安全;(3)自我扩散;和(4)自我推理。我们并未发现我们评估的模型具有强大的危险能力的证据,但我们标记了早期预警信号。我们的目标是推动危险能力评估的严谨科学,为未来的模型做好准备。