每日精选AI研究论文及翻译
自我校正是大型语言模型(LLMs)极为理想的能力,然而在现代LLMs中,它一直被发现效果不佳。现有的自我校正训练方法要么需要多个模型,要么依赖于更强大的模型或其他形式的监督。为此,我们开发了一种多轮在线强化学习(RL)方法SCoRe,通过完全自动生成的数据显著提高LLM的自我校正能力。为构建SCoRe,我们首先表明,在离线模型生成的校正轨迹的监督微调(SFT)的变体对于灌输自我校正行为是不够的。特别地,我们观察到通过SFT训练要么受到训练数据与模型自身响应之间的分布不匹配的困扰,要么隐式偏好于某种在测试时通常不有效的校正行为模式。SCoRe通过在模型自身生成的校正轨迹分布下训练,并使用适当的正则化来引导学习过程,使其学习一种在测试时有效的自我校正策略,而不是仅仅拟合给定提示的高回报响应。这种正则化规定在基础模型上运行第一阶段的RL以生成一个较不容易崩溃的策略初始化,然后使用奖励奖励来增强训练期间的自我校正。当应用于Gemini 1.0 Pro和1.5 Flash模型时,我们发现SCoRe在MATH和HumanEval基准测试中分别将基础模型的自我校正性能提高了15.6%和9.1%,达到了最先进的水平。
在增强大型语言模型(LLMs)的推理能力方面,预训练于大规模、高质量数据集至关重要,尤其是在数学等专业领域。尽管人们认识到其重要性,多模态语言模型(MLLMs)领域目前缺乏专门为数学推理设计的全面开源预训练数据集。为填补这一空白,我们介绍了InfiMM-WebMath-40B,这是一个高质量的交错图像文本文档数据集。它包括了2400万个网页、8500万个相关图像URL和400亿个文本标记,所有这些都是精心从CommonCrawl中提取和过滤出来的。我们提供了我们数据收集和处理流程的详细概述。为了展示InfiMM-WebMath-40B的稳健性,我们在纯文本和多模态设置下进行了评估。我们在纯文本基准测试中的评估表明,尽管仅利用了400亿个标记,我们的数据集显著提升了我们的1.3B模型的性能,提供了与使用1200亿个标记的DeepSeekMath-1.3B相当的结果。然而,引入我们的多模态数学预训练数据集后,我们的模型在MathVerse和We-Math等多模态数学基准测试中取得了新的开源模型的最新成果。我们在https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B发布了我们的数据。
大型语言模型(LLMs)的出现为人工智能搜索引擎,例如SearchGPT,开辟了一种新的人机互动范式。然而,目前大多数人工智能搜索引擎仅限于文本设置,忽略了多模态用户查询以及网站信息的文本-图像交替性质。最近,大型多模态模型(LMMs)取得了令人瞩目的进展。然而,它们能否作为人工智能搜索引擎运行仍未得到充分探讨,使得LMMs在多模态搜索中的潜力成为一个悬而未决的问题。为此,我们首先设计了一个精心构建的流程,MMSearch-Engine,以赋予任何LMMs多模态搜索功能。在此基础上,我们引入了MMSearch,一个全面评估LMMs多模态搜索性能的基准。精心策划的数据集包含300个手动收集的实例,涵盖14个子领域,与当前LMMs的训练数据无重叠,确保只能在搜索中获得正确答案。通过使用MMSearch-Engine,LMMs通过执行三个单独任务(重新查询、重新排名和摘要生成)以及一个具有完整搜索过程的具有挑战性的端到端任务进行评估。我们对闭源和开源LMMs进行了广泛实验。在所有测试模型中,具有MMSearch-Engine的GPT-4o取得了最佳结果,在端到端任务中超越了商业产品Perplexity Pro,展示了我们提出的流程的有效性。我们进一步进行错误分析,揭示当前LMMs仍然在完全掌握多模态搜索任务方面存在困难,并进行消融研究,表明在人工智能搜索引擎中扩展测试时间计算的潜力。我们希望MMSearch可以提供独特的见解,指导未来多模态人工智能搜索引擎的发展。项目页面:https://mmsearch.github.io
在代码生成中,从多个生成的代码解决方案中选择最佳解决方案是一项关键任务,可以通过使用一些可靠的验证器(例如,由开发人员编写的测试用例)来实现。由于可靠的测试用例并非总是可用,并且在实践中构建可能成本高昂,研究人员提出自动生成测试用例以评估代码解决方案。然而,当代码解决方案和测试用例均为合理且不可靠时,选择最佳解决方案变得具有挑战性。尽管已经提出了一些启发式策略来解决这个问题,但它们缺乏强大的理论保证,是否存在最佳选择策略仍然是一个悬而未决的问题。我们的工作在两个方面做出了贡献。首先,我们展示了在贝叶斯框架内,可以基于解决方案和测试之间观察到的通过状态的后验概率来定义最佳选择策略。然后,识别最佳解决方案的问题被构建为整数规划问题。其次,我们提出了一种有效的方法来近似这种最佳(但无法计算)策略,其中近似误差受先验知识正确性的限制。然后,我们结合有效的先验知识来定制代码生成任务。理论和实证研究均证实,现有的启发式方法在选择具有合理测试用例的最佳解决方案方面存在局限性。我们提出的近似最佳策略 B4 在选择由大型语言模型(LLMs)生成的代码解决方案时明显优于现有的启发式方法,实现了相对性能提升高达 50%,比最强启发式方法提高了 246%,超过了最具挑战性场景中随机选择的效果。我们的代码可在 https://github.com/ZJU-CTAG/B4 上公开获取。
视觉数据呈现多种形式,从仅有几个像素的小图标到长达数小时的视频。现有的多模态LLM通常将这些多样化的视觉输入标准化为固定分辨率,以供视觉编码器使用,并为LLM生成相似数量的标记。这种方法对于多模态理解是非最优的,对于处理具有长短视觉内容的输入也是低效的。为了解决这个问题,我们提出了Oryx,一个统一的多模态架构,用于空间-时间理解图像、视频和多视角3D场景。Oryx提供了一个按需解决方案,可以无缝高效地处理具有任意空间尺寸和时间长度的视觉输入,通过两个核心创新实现:1)一个预训练的OryxViT模型,可以将任何分辨率的图像编码为LLM友好的视觉表示;2)一个动态压缩模块,可按需支持对视觉标记进行1倍至16倍的压缩。这些设计特点使Oryx能够适应极长的视觉上下文,如视频,以较低分辨率和高压缩处理,同时在任务中保持高识别精度,例如使用本机分辨率和无压缩进行文档理解。除了架构改进外,增强的数据策划和专门针对长上下文检索和空间感知数据的训练有助于Oryx同时在图像、视频和3D多模态理解方面具有强大的能力。我们的工作在https://github.com/Oryx-mllm/Oryx上开源。
我们提出了第一个基于参考线稿视频上色的视频扩散框架。与先前仅依赖图像生成模型逐帧上色线稿的方法不同,我们的方法利用大规模预训练的视频扩散模型来生成彩色动画视频。这种方法产生了更具时间一致性的结果,并且更适合处理大运动。首先,我们引入了Sketch-guided ControlNet,为图像到视频扩散模型提供额外控制,用于可控视频合成,实现了基于线稿生成动画视频。然后,我们提出了Reference Attention,以促进从参考帧向包含快速和广泛运动的其他帧传递颜色。最后,我们提出了一种新颖的顺序采样方案,结合了Overlapped Blending Module和Prev-Reference Attention,以超越原始固定长度限制,实现长视频上色。定性和定量结果表明,我们的方法在帧和视频质量以及时间一致性方面明显优于最先进的技术。此外,我们的方法能够生成具有大运动的高质量、长时间一致的动画视频,这是先前方法无法实现的。我们的代码和模型可在https://luckyhzt.github.io/lvcd获得。
语言模型的预训练阶段通常从随机初始化的参数开始。随着模型规模不断扩大的趋势,训练大量参数可能会变得极其缓慢和昂贵。相比之下,小型语言模型的训练成本较低,但通常无法达到大型模型的准确性。在本文中,我们探讨了一个有趣的想法,即是否可以开发一种方法,利用较小的预训练模型来初始化大型语言模型?这种初始化是否会在训练时间和最终准确性方面带来任何好处?本文介绍了HyperCloning,这是一种方法,可以将预训练语言模型的参数扩展到具有增加隐藏维度的更大模型。我们的方法确保较大模型保留较小模型的功能。因此,在训练开始之前,较大模型已经继承了较小模型的预测能力和准确性。我们证明,训练这样一个初始化模型会显著节省用于预训练大型语言模型所需的GPU小时数。
随着各行业对高质量三维资产的需求不断增加,需要高效自动化的三维内容创作。尽管三维生成模型近年来取得了进展,但现有方法仍面临优化速度、几何保真度以及缺乏适用于基于物理的渲染(PBR)的资产等挑战。本文介绍了3DTopia-XL,一种可扩展的本机三维生成模型,旨在克服这些限制。3DTopia-XL利用一种新颖的基于基元的三维表示,PrimX,将详细形状、反照率和材质字段编码为紧凑的张量格式,有助于使用PBR资产建模高分辨率几何。在这种新颖表示的基础上,我们提出了一个基于扩散变换器(DiT)的生成框架,包括1)基元补丁压缩,2)和潜在基元扩散。3DTopia-XL学习从文本或视觉输入生成高质量三维资产。我们进行了广泛的定性和定量实验,证明了3DTopia-XL在生成具有细粒度纹理和材质的高质量三维资产方面明显优于现有方法,有效地弥合了生成模型与实际应用之间的质量差距。
无需调参的个性化图像生成方法在保持面部一致性(即身份)方面取得了显著成功,即使涉及多个角色也是如此。然而,在涉及多个角色的场景中缺乏整体一致性会阻碍这些方法创造连贯叙事的能力。本文介绍了StoryMaker,这是一种个性化解决方案,不仅保留了面部一致性,还包括服装、发型和身体一致性,从而通过一系列图像促进故事的创作。StoryMaker结合了基于面部身份和裁剪角色图像(包括服装、发型和身体)的条件。具体而言,我们使用位置感知感知器重采样器(PPR)将面部身份信息与裁剪角色图像整合,以获得独特的角色特征。为了防止多个角色和背景相互混合,我们使用带有分割掩模的MSE损失分别约束不同角色和背景的交叉注意力影响区域。此外,我们训练生成网络以姿势为条件,以促进与姿势的解耦。还采用了LoRA来增强保真度和质量。实验证明了我们方法的有效性。StoryMaker支持多种应用,并与其他社会插件兼容。我们的源代码和模型权重可在https://github.com/RedAIGC/StoryMaker获得。
最近的纹理生成方法取得了令人印象深刻的成果,这要归功于它们利用大规模文本到图像扩散模型中强大的生成先验知识。然而,抽象的文本提示在提供全局纹理或形状信息方面存在局限,导致纹理生成方法产生模糊或不一致的图案。为了解决这个问题,我们提出了FlexiTex,通过视觉引导嵌入丰富信息以生成高质量纹理。FlexiTex的核心是视觉引导增强模块,它从视觉引导中融入更具体的信息,以减少文本提示中的歧义并保留高频细节。为了进一步增强视觉引导,我们引入了一个自动设计方向提示的Direction-Aware Adaptation模块,根据不同的摄像机姿势避免了Janus问题,并保持语义上的全局一致性。受益于视觉引导,FlexiTex产生了定量和定性上令人满意的结果,展示了其推动纹理生成在实际应用中的潜力。
语言模型(LMs)可能会产生难以被人类检测到的错误,特别是当任务复杂时。RLHF,最流行的后训练方法,可能会加剧这一问题:为了获得更高的奖励,LMs可能会更擅长说服人类,即使它们是错误的。我们在一个标准的RLHF流程下研究了这一现象,将其称为“U-SOPHISTRY”,因为这是模型开发者意外造成的。具体来说,我们要求时间受限(例如3-10分钟)的人类受试者评估模型输出的正确性,并计算人类相对于黄金标签的准确性。在一个问答任务(QuALITY)和编程任务(APPS)中,RLHF使LMs更擅长说服我们的受试者,但并没有更擅长正确完成任务。RLHF还使模型更难评估:在QuALITY上,我们受试者的误报率增加了24.1%,在APPS上增加了18.3%。最后,我们展示了探测,一种用于检测有意诡辩(例如后门LMs)的最先进方法,无法推广到U-SOPHISTRY。我们的结果突显了RLHF的一个重要失败模式,并呼吁进行更多研究来帮助人类与之保持一致。
指导调优通过将大型语言模型(LLMs)与人类偏好在各种任务中保持一致来增强其性能。传统方法创建指导调优数据集在低资源语言中面临严重挑战,因为这些方法依赖于数据注释。本研究引入了一种新方法,名为多语言反向指导(MURI),它能够为低资源语言生成高质量的指导调优数据集,而无需人工标注或现有多语言模型。MURI利用反向指导和翻译流程,从现有的低资源语言人工撰写的文本中生成指导-输出对。该方法通过从不同的本地领域获取文本并应用过滤器来消除不当内容,确保文化相关性和多样性。我们的数据集,MURI-IT,涵盖了200种语言中超过2百万个指导-输出对。由母语使用者进行评估以及与mT5模型的微调实验表明该方法在自然语言理解和开放式生成方面的有效性。我们在https://github.com/akoksal/muri 上公开发布数据集和模型。
我们提出了3DGS-LM,这是一种新方法,通过将其ADAM优化器替换为定制的Levenberg-Marquardt(LM)来加速3D高斯飞溅(3DGS)的重建。现有方法通过减少高斯数量或改进可微光栅化器的实现来减少优化时间。然而,它们仍然依赖于ADAM优化器来拟合场景中数千次迭代的高斯参数,这可能需要长达一小时的时间。为此,我们将优化器更改为与3DGS可微光栅化器同时运行的LM。为了实现高效的GPU并行化,我们提出了一种用于中间梯度的缓存数据结构,使我们能够在自定义CUDA核心中高效计算雅可比-向量乘积。在每次LM迭代中,我们使用这些核心从多个图像子集计算更新方向,并将它们组合成加权平均值。总体而言,我们的方法比原始3DGS快30%,同时获得相同的重建质量。我们的优化方法也不受其他加速3DGS的方法的影响,因此与原始3DGS相比,可以实现更快的加速。
基于扩散的模型进行视频生成受到高计算成本的限制,因为需要逐帧进行迭代扩散过程。本研究提出了一种名为Diffusion Reuse MOtion(Dr. Mo)网络,用于加速潜在视频生成。我们的关键发现是,在较早的去噪步骤中存在粗粒度噪声,这些噪声在连续视频帧之间表现出高运动一致性。基于这一观察,Dr. Mo通过结合精心设计的轻量级帧间运动,将这些粗粒度噪声传播到下一帧,从而消除了逐帧扩散模型中的大量计算冗余。更敏感和细粒度的噪声仍然通过后续的去噪步骤获取,这对保留视觉质量至关重要。因此,决定哪些中间步骤应该从基于运动的传播切换到去噪可能是一个关键问题,也是效率和质量之间的关键权衡。Dr. Mo采用一个名为Denoising Step Selector(DSS)的元网络,动态确定视频帧之间理想的中间步骤。对视频生成和编辑任务的广泛评估表明,Dr. Mo能够显著加速视频任务中的扩散模型,并提高视觉质量。
自动音频字幕(AAC)任务要求模型生成音频输入的自然语言描述。评估这些机器生成的音频字幕是一个复杂的任务,需要考虑多种因素,其中包括听觉场景理解、声音对象推断、时间连贯性和场景的环境背景。虽然当前方法侧重于特定方面,但它们经常无法提供与人类判断良好对齐的整体评分。在这项工作中,我们提出了CLAIR-A,这是一种简单灵活的方法,利用大型语言模型(LLMs)的零样本能力,通过直接询问LLMs获取语义距离分数来评估候选音频字幕。在我们的评估中,与传统度量标准相比,CLAIR-A更好地预测了人类对质量的判断,相对准确性提高了5.8%,比领域特定的FENSE度量标准高出多达11%,超过了Clotho-Eval数据集上最佳通用度量标准。此外,CLAIR-A通过允许语言模型解释其评分背后的推理,提供了更多透明度,这些解释被人类评估者评分比基线方法提供的解释高出多达30%。CLAIR-A已在https://github.com/DavidMChan/clair-a 上公开提供。