每日精选AI研究论文及翻译
在本报告中,我们介绍了Qwen2.5,这是一系列全面的大型语言模型(LLMs),旨在满足各种需求。与以往版本相比,Qwen 2.5在预训练和后训练阶段都有了显著改进。在预训练方面,我们将高质量的预训练数据集从之前的7万亿标记扩展到了18万亿标记。这为常识、专家知识和推理能力提供了坚实基础。在后训练方面,我们实施了复杂的有监督微调,涵盖超过100万个样本,以及多阶段的强化学习。后训练技术增强了人类偏好,并显著改善了长文本生成、结构化数据分析和指令遵循。为有效处理多样化和各种用例,我们以丰富的规模呈现了Qwen2.5 LLM系列。开放权重产品包括基础模型和指令调整模型,同时提供量化版本。此外,对于托管解决方案,专有模型目前包括两种专家混合(MoE)变体:Qwen2.5-Turbo和Qwen2.5-Plus,均可从阿里云模型工作室获取。Qwen2.5在评估语言理解、推理、数学、编码、人类偏好对齐等各种基准测试中展现了顶尖性能。具体而言,开放权重旗舰产品Qwen2.5-72B-Instruct胜过了许多开放和专有模型,并展示了与最先进的开放权重模型Llama-3-405B-Instruct竞争性能相当,后者大约大5倍。Qwen2.5-Turbo和Qwen2.5-Plus在性价比上表现出色,同时与GPT-4o-mini和GPT-4o保持竞争力。此外,作为基础,Qwen2.5模型对训练专门模型如Qwen2.5-Math、Qwen2.5-Coder、QwQ和多模态模型起到了关键作用。
多步骤多模态推理任务对多模态大型语言模型(MLLMs)提出了重大挑战,在这种情况下如何提高其性能仍然是一个未解决的问题。在本文中,我们提出了AR-MCTS,这是一个通用框架,旨在通过主动检索(AR)和蒙特卡洛树搜索(MCTS)逐步提高MLLMs的推理能力。我们的方法始于开发一个统一的检索模块,从混合模态检索语料库中检索解决复杂推理问题的关键支持见解。为了弥合自动多模态推理验证中的差距,我们采用了MCTS算法结合主动检索机制,这使得能够自动生成逐步注释。该策略动态地为每个推理步骤检索关键见解,超越传统的波束搜索采样,以提高推理空间的多样性和可靠性。此外,我们引入了一个过程奖励模型,逐步与支持自动验证多模态推理任务相一致。在三个复杂的多模态推理基准测试中的实验结果证实了AR-MCTS框架在提高各种多模态模型性能方面的有效性。进一步的分析表明,AR-MCTS可以优化采样多样性和准确性,产生可靠的多模态推理。
尽管多模态检索需求迅速增长,但该领域的进展仍受到训练数据不足的严重限制。本文介绍了MegaPairs,一种新颖的数据合成方法,利用视觉语言模型(VLMs)和开放域图像,结合从该方法生成的大规模合成数据集。我们的实证分析表明,MegaPairs生成了高质量数据,使多模态检索器能够明显优于基线模型,后者是在现有数据集中训练了70倍的数据。此外,由于MegaPairs仅依赖于通用图像语料库和开源VLMs,因此可以轻松扩展,从而实现检索性能的持续改进。在这一阶段,我们生成了超过2600万个训练实例,并使用这些数据训练了几个不同规模的模型。这些新模型在4个流行的组合图像检索(CIR)基准测试中实现了最先进的零样本性能,并在MMEB提供的36个数据集中取得了最佳的整体性能。它们还展示了在进行额外下游微调时显著的性能改进。我们生成的数据集、训练有素的模型和数据合成流程将公开提供,以促进该领域未来的发展。
在合成数据中出现的模型崩溃表明,在自动生成数据上进行迭代训练会导致性能逐渐下降。随着AI模型的大量出现,合成数据将从根本上重塑网络数据生态系统。未来的GPT-{n}模型必然会在合成数据和人工生成数据的混合中进行训练。在本文中,我们关注两个问题:合成数据对语言模型训练的影响是什么,以及如何在不发生模型崩溃的情况下合成数据?我们首先在不同比例的合成数据上预训练语言模型,揭示了合成数据比例与模型性能之间的负相关关系。我们进一步对合成数据进行统计分析,揭示了分布偏移现象和n-gram特征的过度集中。受以上发现启发,我们提出对人工生成数据进行标记编辑,以获得半合成数据。作为概念验证,我们在理论上证明了标记级别编辑可以防止模型崩溃,因为测试误差受到有限上限的限制。我们进行了大量实验,包括从头开始的预训练、持续预训练和监督微调。结果验证了我们的理论证明,即标记级别编辑提高了数据质量并增强了模型性能。
本文介绍了LongBench v2,这是一个旨在评估大型语言模型(LLMs)处理需要深度理解和推理跨现实世界多任务长上下文问题的基准测试。LongBench v2 包含503个具有挑战性的多项选择题,涵盖了从8k到2M字的上下文,涵盖了六个主要任务类别:单文档问答、多文档问答、长上下文学习、长对话历史理解、代码仓库理解和长结构化数据理解。为确保广度和实用性,我们从近100位受过良好教育且具有多样化专业背景的个人那里收集数据。我们采用自动化和手动审核流程来保持高质量和难度,结果表明在15分钟的时间限制下,人类专家仅能达到53.7%的准确率。我们的评估显示,当直接回答问题时,表现最佳的模型仅能达到50.1%的准确率。相比之下,包含更长推理的o1-preview模型达到了57.7%,超过人类基准4%。这些结果突显了增强推理能力和扩展推理时间计算的重要性,以解决LongBench v2 中的长上下文挑战。该项目网址为https://longbench2.github.io。
扩散模型及其泛化形式流匹配在媒体生成领域产生了显著影响。在这里,传统方法是学习从简单的高斯噪声源分布到目标媒体分布的复杂映射。对于诸如文本到图像生成之类的跨模态任务,该映射从噪声到图像的学习同时包括模型中的调节机制。流匹配迄今一个关键但相对未被探索的特征是,与扩散模型不同,它们不受限于源分布为噪声。因此,在本文中,我们提出了一个范式转变,并提出了一个问题,即我们是否可以训练流匹配模型来直接学习从一种模态的分布到另一种模态的分布的映射,从而消除了噪声分布和调节机制的需要。我们提出了一个通用且简单的框架CrossFlow,用于跨模态流匹配。我们展示了应用变分编码器到输入数据的重要性,并引入了一种方法来实现无分类器指导。令人惊讶的是,在文本到图像的任务中,具有普通变压器但无交叉注意力的CrossFlow略优于标准流匹配,我们展示了它在训练步骤和模型规模上的更好扩展性,同时还允许在输出空间中进行有趣的潜在算术,从而产生语义上有意义的编辑。为了展示我们方法的泛化能力,我们还展示CrossFlow在各种跨模态/内模态映射任务中,如图像字幕生成、深度估计和图像超分辨率方面与最先进技术持平或优于其表现。我们希望本文有助于加速跨模态媒体生成领域的进展。
基于拖拽的交互直观性导致其在图像到视频合成中控制物体轨迹的应用不断增加。然而,现有在二维空间执行拖拽的方法通常在处理平面外移动时面临歧义。在这项工作中,我们通过引入一个新维度,即深度维度,来增强交互,使用户能够为轨迹上的每个点分配相对深度。这样,我们的新交互范式不仅继承了二维拖拽的便利性,还促进了在三维空间中的轨迹控制,拓宽了创造力的范围。我们提出了一种开创性的方法,通过将物体蒙版抽象为少数聚类点来控制图像到视频合成中的三维轨迹。这些点连同深度信息和实例信息最终被馈送到视频扩散模型作为控制信号。大量实验证实了我们的方法 LeviTor 的有效性,在从静态图像生成照片逼真视频时精确操纵物体移动。项目页面:https://ppetrichor.github.io/levitor.github.io/
作为一种常见的图像编辑操作,图像合成涉及将前景对象整合到背景场景中。在本文中,我们将Affordance概念从以人为中心的图像合成任务扩展到更一般的对象-场景合成框架,解决前景对象和背景场景之间复杂的相互作用。遵循Affordance原则,我们定义了认知能力感知的对象插入任务,旨在通过各种位置提示将任何对象无缝插入任何场景中。为了解决数据有限的问题并融入这一任务,我们构建了SAM-FB数据集,其中包含超过3,000个对象类别的3百万多个示例。此外,我们提出了Mask-Aware Dual Diffusion(MADD)模型,该模型利用双流架构同时对RGB图像和插入蒙版进行去噪处理。通过在扩散过程中明确建模插入蒙版,MADD有效地促进了认知能力的概念。大量实验结果表明,我们的方法优于最先进的方法,并在野外图像上展现出强大的泛化性能。请参阅我们的代码,网址为https://github.com/KaKituken/affordance-aware-any。
本文介绍了AceMath,这是一套在解决复杂数学问题方面表现出色的前沿数学模型,配备高效的奖励模型,能够评估生成的解决方案并可靠地识别正确答案。为了开发针对指导的数学模型,我们提出了一个监督微调(SFT)过程,首先在一般领域取得竞争性表现,然后针对数学领域使用精心策划的提示集和合成生成的响应进行有针对性的微调。最终产生的模型AceMath-72B-Instruct在性能上远远超过了Qwen2.5-Math-72B-Instruct、GPT-4o和Claude-3.5 Sonnet。为了开发专门针对数学的奖励模型,我们首先构建了AceMath-RewardBench,这是一个全面而强大的基准,用于评估不同问题和难度级别下的数学奖励模型。之后,我们提出了一个系统方法来构建我们的数学奖励模型。最终产生的模型AceMath-72B-RM在性能上始终优于最先进的奖励模型。此外,当将AceMath-72B-Instruct与AceMath-72B-RM相结合时,我们在数学推理基准测试中实现了最高的平均rm@8分数。我们将在以下网址发布模型权重、训练数据和评估基准:https://research.nvidia.com/labs/adlr/acemath
程序内容生成(PCG)在创建高质量的3D内容方面非常强大,但控制其以生成所需形状却很困难,通常需要进行大量参数调整。逆向程序内容生成旨在在输入条件下自动找到最佳参数。然而,现有基于采样和神经网络的方法仍然存在大量的样本迭代或受限的可控性。在这项工作中,我们提出了DI-PCG,一种从一般图像条件进行逆向PCG的新颖高效方法。其核心是一个轻量级扩散变换器模型,其中PCG参数直接被视为去噪目标,观察到的图像作为控制参数生成的条件。DI-PCG高效且有效。仅需7.6M个网络参数和30个GPU小时进行训练,它展现出在准确恢复参数和良好泛化到野外图像方面的卓越性能。定量和定性实验结果验证了DI-PCG在逆向PCG和图像到3D生成任务中的有效性。DI-PCG为高效的逆向PCG提供了一种有前途的方法,并代表了朝着模拟如何使用参数模型构建3D资产的3D生成路径的宝贵探索步骤。
训练大型多模态模型(LMMs)依赖描述性图像标题,将图像和语言连接起来。现有方法要么从LMM模型中提炼标题,要么从互联网图像或人工构建标题。我们提出利用现成的视觉专家,这些专家最初是从带注释的图像中训练出来的,而不是用于图像字幕,以增强图像字幕。 我们的方法名为DCE,探索物体的低级和细粒度属性(例如深度、情感和细粒度类别)以及物体关系(例如相对位置和人物-物体交互(HOI)),并将这些属性结合到描述性字幕中。实验证明,这种视觉专家能够提高视觉理解任务的性能,以及从更准确的视觉理解中获益的推理。我们将发布源代码和流程,以便其他视觉专家可以轻松地结合到流程中。DCE流程和数据集的完整源代码将在https://github.com/syp2ysy/DCE 上提供。
我们提出了一种用于基于指令的图像编辑的无监督模型,该模型在训练过程中消除了对地面真实编辑图像的需求。现有的监督方法依赖包含输入图像、编辑图像和编辑指令三元组的数据集。这些数据集由现有的编辑方法或人工注释生成,这会引入偏见并限制它们的泛化能力。我们的方法通过引入一种名为循环编辑一致性(CEC)的新颖编辑机制来解决这些挑战,该机制在一个训练步骤中应用前向和后向编辑,并在图像和注意力空间中强制保持一致性。这使我们能够绕过对地面真实编辑图像的需求,并首次在包含真实图像-标题对或图像-标题-编辑三元组的数据集上进行训练。我们凭经验证明,我们的无监督技术在更广泛范围的编辑中表现更好,具有高保真度和精度。通过消除三元组的预先存在数据集的需求,减少与监督方法相关的偏见,并提出CEC,我们的工作代表了在解锁基于指令的图像编辑的扩展方面的重大进展。
我们提出了AV-Link,这是一个统一的框架,用于视频到音频和音频到视频的生成,利用冻结视频和音频扩散模型的激活进行时间对齐的跨模态条件。我们框架的关键是融合块,通过一个时间对齐的自注意操作,在我们的视频和音频扩散模型之间实现双向信息交换。与先前使用为其他任务预训练的特征提取器作为条件信号的工作不同,AV-Link可以直接利用在单一框架中获得的互补模态的特征,即利用视频特征生成音频,或利用音频特征生成视频。我们广泛评估了我们的设计选择,并展示了我们的方法实现同步和高质量的音视频内容的能力,展示了其在沉浸式媒体生成应用中的潜力。项目页面:snap-research.github.io/AVLink/
本文提出了基于文本的开放式分子生成基准(TOMG-Bench),这是第一个用于评估LLM的开放领域分子生成能力的基准。TOMG-Bench包含三个主要任务的数据集:分子编辑(MolEdit)、分子优化(MolOpt)和定制分子生成(MolCustom)。每个任务进一步包含三个子任务,每个子任务包含5,000个测试样本。鉴于开放式分子生成的固有复杂性,我们还开发了一个自动评估系统,帮助衡量生成的分子的质量和准确性。我们对25个LLM进行了全面的基准测试,揭示了文本引导的分子发现中当前的局限性和潜在改进领域。此外,借助OpenMolIns的帮助,这是一个专门用于解决TOMG-Bench提出的挑战的指令调整数据集,Llama3.1-8B能够胜过所有开源的通用LLM,甚至比GPT-3.5-turbo在TOMG-Bench上提高了46.5%。我们的代码和数据集可通过https://github.com/phenixace/TOMG-Bench获得。
最近的研究探讨了扩散模型(DMs)在一致性对象编辑方面的潜力,旨在修改对象的位置、大小、构成等,同时保持对象和背景的一致性,而不改变它们的纹理和属性。当前推断时方法通常依赖于DDIM反演,这从本质上损害了效率和编辑图像的可实现一致性。最近的方法还利用能量引导,通过迭代更新预测的噪声,可能会使潜变量远离原始图像,导致失真。在本文中,我们提出了PixelMan,这是一种无需反演和无需训练的方法,通过像素操作和生成实现一致性对象编辑,我们直接在像素空间中在目标位置创建源对象的副本,并引入一种高效的采样方法,通过迭代将操作过的对象协调到目标位置,并修补其原始位置,同时通过将编辑后的图像锚定到像素操作后的图像以及在推断过程中引入各种保持一致性的优化技术,确保图像的一致性。基于基准数据集的实验评估以及广泛的视觉比较显示,仅经过16个推断步骤,PixelMan在多个一致性对象编辑任务上胜过一系列最先进的基于训练和无需训练的方法(通常需要50步)。
本文介绍了DateLogicQA,一个涵盖多种日期格式、时间背景和推理类型的基准测试,共包含190个问题。我们提出了语义完整性度量标准,用于评估标记化质量,并分析了两种偏见:影响嵌入的表示级偏见和影响推理输出的逻辑级偏见。我们的研究结果全面评估了LLMs在时间推理中的能力和局限性,突出了处理时间数据准确性的关键挑战。我们的工作GitHub存储库可在以下网址找到:https://github.com/gagan3012/EAIS-Temporal-Bias
生成逼真的人类视频仍然是一个具有挑战性的任务,目前最有效的方法通常依赖于人类运动序列作为控制信号。现有方法通常使用从其他视频中提取的现有运动,这限制了应用于特定运动类型和全局场景匹配。我们提出了Move-in-2D,这是一种新颖的方法,可以生成以场景图像为条件的人类运动序列,从而实现适应不同场景的多样化运动。我们的方法利用扩散模型,接受场景图像和文本提示作为输入,并生成适合场景的运动序列。为了训练这个模型,我们收集了一个大规模视频数据集,展示单人活动,为每个视频标注相应的人类运动作为目标输出。实验证明,我们的方法有效地预测了与场景图像投影后对齐的人类运动。此外,我们展示了生成的运动序列在视频合成任务中改善了人类运动质量。