每日精选AI研究论文及翻译
视觉推理是人类智能的核心组成部分,也是高级多模态模型的关键能力。然而,当前对多模态大语言模型(MLLMs)的推理评估往往依赖文本描述,并允许基于语言的推理捷径,未能真正衡量以视觉为中心的推理能力。为此,我们推出了VisuLogic:一个包含1000道经过人工验证问题的基准测试,涵盖六大类别(如数量变化、空间关系、属性比较等)。这些多样化的问题类型可以从多个角度评估MLLMs的视觉推理能力。我们在该基准上评估了领先的MLLMs,并分析其结果以识别常见失败模式。大多数模型的准确率低于30%——仅略高于25%的随机基线,远低于人类达到的51.4%——揭示了视觉推理方面的显著差距。此外,我们提供了一个补充训练数据集和一个基于强化学习的基线,以支持进一步的研究进展。
如何在语言模型中经济高效地实现强大的推理能力?基于这一根本性问题,我们推出了Tina系列,这是一组以高成本效益实现的小型推理模型。尤为突出的是,Tina展示了仅需极少量资源,通过在强化学习(RL)过程中应用参数高效更新策略,即采用低秩适应(LoRA)技术,对仅1.5B参数的微型基础模型进行调整,即可显著提升推理性能。这种极简主义方法所构建的模型,其推理表现不仅与基于同一基础模型构建的当前最优(SOTA)RL推理模型相媲美,有时甚至超越之。关键在于,这一切是在仅需现有SOTA模型训练后计算成本极小一部分的情况下实现的。实际上,最佳Tina模型在AIME24上实现了超过20%的推理性能提升和43.33%的Pass@1准确率,而训练后评估成本仅为9美元(即估计成本降低了260倍)。我们的研究揭示了通过LoRA实现高效RL推理的惊人效果。我们在多个开源推理数据集及多种消融设置下,从一组固定的超参数出发,验证了这一发现。此外,我们推测这种高效性与有效性源于LoRA快速使模型适应RL奖励的推理结构格式,同时很大程度上保留了基础模型的底层知识。为了促进可访问性和开放研究,我们完全开源了所有代码、训练日志及模型权重与检查点。
本文介绍了DreamID,一种基于扩散模型的人脸交换技术,该技术在身份相似度、属性保留、图像保真度及快速推理速度方面均达到了高水平。与通常依赖隐式监督且难以取得满意效果的传统人脸交换训练过程不同,DreamID通过构建三元组身份群组数据,为人脸交换建立了显式监督机制,显著提升了身份相似性和属性保留度。扩散模型的迭代特性给利用高效的图像空间损失函数带来了挑战,因为在训练过程中进行耗时的多步采样以获取生成图像是不现实的。为解决这一问题,我们采用了加速扩散模型SD Turbo,将推理步骤缩减至单次迭代,从而实现了结合显式三元组身份群组监督的高效像素级端到端训练。此外,我们提出了一种改进的基于扩散的模型架构,包括SwapNet、FaceNet和ID Adapter,这一强大架构充分发挥了三元组身份群组显式监督的潜力。最后,为扩展方法的应用范围,我们在训练期间明确调整三元组身份群组数据,以微调并保留特定属性,如眼镜和脸型。大量实验证明,DreamID在身份相似度、姿态与表情保留以及图像保真度方面均超越了现有最先进的方法。总体而言,DreamID在512*512分辨率下仅需0.6秒即可实现高质量的人脸交换效果,并在复杂光照、大角度及遮挡等挑战性场景中表现尤为出色。
我们推出了PHYBench,这是一个新颖且高质量的基准测试,旨在评估大型语言模型(LLMs)在物理情境下的推理能力。PHYBench包含500道精心挑选的基于真实世界物理场景的物理问题,旨在评估模型理解和推理现实物理过程的能力。该基准测试涵盖力学、电磁学、热力学、光学、现代物理及高等物理,难度范围从高中练习题到大学物理问题乃至物理奥林匹克竞赛挑战。此外,我们提出了表达式编辑距离(EED)评分,这是一种基于数学表达式间编辑距离的新颖评估指标,能有效捕捉模型推理过程及结果上的差异,超越了传统的二元评分方法。我们在PHYBench上对多种LLMs进行了评估,并将其表现与人类专家进行了对比。结果显示,即便是最先进的推理模型也显著落后于人类专家,凸显了它们在复杂物理推理场景中的局限性和改进需求。我们的基准测试结果和数据集已公开发布于https://phybench-official.github.io/phybench-demo/。
我们推出了Trillion-7B,这是一款最具令牌效率的以韩语为核心的多语言大模型。我们创新的跨语言文档注意力机制(XLDA)实现了从英语到韩语、日语等目标语言的高效知识迁移。结合优化的数据混合策略、语言特定过滤及定制化的分词器构建,Trillion-7B在仅分配其2万亿训练令牌中的10%用于多语言数据,并仅需59.4K H100 GPU小时(约14.8万美元)完成全面训练的情况下,仍展现出卓越性能。在涵盖四种语言的27项基准测试中,Trillion-7B展现了其强大的多语言处理能力及出色的跨语言一致性。
随着表征学习领域的不断发展,为解决各类问题而设计的损失函数层出不穷。我们提出了一种基于信息论的统一方程,该方程概括了机器学习中大量现代损失函数。具体而言,我们引入了一个框架,展示了几大类机器学习方法实质上是在最小化两个条件分布——监督信号与学习到的表征——之间的综合KL散度。这一视角揭示了聚类、谱方法、降维、对比学习及监督学习背后隐藏的信息几何结构。该框架通过整合文献中成功的技巧,促进了新损失函数的开发。我们不仅提供了广泛的证明,将超过23种不同方法联系起来,还利用这些理论成果构建了当前最先进的无监督图像分类器,在ImageNet-1K的无监督分类任务上实现了较之前最佳水平8%的提升。此外,我们还展示了I-Con可用于推导出有原则的去偏方法,从而改进对比表征学习器的性能。
近期,针对图像定制(如身份、主体、风格、背景等)的大量研究展示了大规模生成模型在定制能力上的强大表现。然而,大多数方法专为特定任务设计,限制了其在结合不同类型条件时的通用性。开发一个统一的图像定制框架仍是一个开放性的挑战。本文中,我们提出了DreamO,一个旨在支持广泛任务并促进多种条件无缝集成的图像定制框架。具体而言,DreamO采用扩散变换器(DiT)框架来统一处理不同类型的输入。在训练过程中,我们构建了一个包含多种定制任务的大规模训练数据集,并引入特征路由约束,以促进从参考图像中精确查询相关信息。此外,我们设计了一种占位符策略,将特定占位符与特定位置的条件关联起来,从而实现对生成结果中条件放置的控制。同时,我们采用了一种由三个阶段组成的渐进式训练策略:初始阶段聚焦于数据有限的简单任务,以建立基线一致性;全面训练阶段,以全面提升定制能力;以及最终的质量对齐阶段,用于纠正由低质量数据引入的质量偏差。大量实验证明,所提出的DreamO能够高质量地有效执行各种图像定制任务,并灵活整合不同类型的控制条件。
本文介绍了我们在AI数学奥林匹克竞赛——进步奖2(AIMO-2)中的获奖方案。构建顶尖数学推理模型的秘诀基于三大支柱。首先,我们创建了一个包含54万道独特高质量数学问题的大规模数据集,其中包括奥林匹克级别的题目及其320万条长推理解答。其次,我们开发了一种新颖方法,通过迭代训练、生成和质量筛选,将代码执行与长推理模型相结合,生成了170万条高质量的工具集成推理解答。第三,我们构建了一个训练模型从众多候选解答中选择最有前景答案的流程。研究表明,这种生成式解答选择(GenSelect)方法相较于多数投票基线有显著提升。综合这些创新,我们训练了一系列模型,在数学推理基准测试中取得了领先成果。为促进进一步研究,我们在商业许可下公开了代码、模型及完整的OpenMathReasoning数据集。
直接偏好优化(DPO)通过直接优化人类偏好,无需显式奖励模型,简化了大型语言模型(LLMs)从人类反馈中进行强化学习(RLHF)的过程。我们发现,在DPO训练期间,参考模型扮演了数据权重调节器的角色。然而,DPO中常见的将策略模型与参考模型初始化为相同的做法,可能导致数据利用效率低下,并设定性能上限。同时,简单偏好优化(SimPO)中缺乏参考模型,降低了训练鲁棒性,并需要更严格的条件来防止灾难性遗忘。在本研究中,我们提出了Pre-DPO,这是一种基于DPO的简单而有效的训练范式,通过利用引导性参考模型来增强偏好优化性能。该参考模型提供了通过训练偏好数据可达到的最优策略状态的预见,作为一种引导机制,自适应地为更适合模型的样本分配更高权重,为不太适合的样本分配较低权重。在AlpacaEval 2.0和Arena-Hard v0.1基准上的大量实验表明,Pre-DPO在不依赖外部模型或额外数据的情况下,持续提升了DPO和SimPO的性能。
对比语言-图像预训练(CLIP)通过对齐图像与文本模态,在多项下游任务中取得了成功。然而,全局对比学习的本质限制了CLIP理解组合概念(如关系和属性)的能力。尽管近期研究采用全局硬负样本来提升组合理解,但这些方法通过强制在嵌入空间中拉远文本负样本与图像的距离,显著削弱了模型的固有通用能力。为克服这一局限,我们提出了一种解耦的全局-局部对齐(DeGLA)框架,在显著减轻通用能力损失的同时,提升了组合理解。为优化模型固有能力的保留,我们在全局对齐过程中引入了自蒸馏机制,将可学习的图像-文本编码器与基于指数移动平均的冻结教师模型对齐。在自蒸馏的约束下,它有效缓解了微调过程中预训练知识的灾难性遗忘。为提升组合理解,我们首先利用大语言模型(LLMs)的上下文学习能力,构建了涵盖五类约200万条高质量负样本描述。随后,我们提出了图像引导对比(IGC)损失和文本引导对比(TGC)损失,以增强视觉-语言的组合性。大量实验结果验证了DeGLA框架的有效性。与之前的最先进方法相比,DeGLA在VALSE、SugarCrepe和ARO基准测试中平均提升了3.5%。同时,在11个数据集上的零样本分类任务中,平均性能提升了13.0%。我们的代码将在https://github.com/xiaoxing2001/DeGLA 发布。
大型语言模型(LLMs)的显著成功为学术界和工业界实现通用人工智能开辟了一条充满希望的道路,这得益于其在各类应用中的卓越表现。随着LLMs在研究和商业领域日益突出,其安全性和可靠性问题已成为研究人员、企业乃至各国日益关注的焦点。目前,关于LLM安全的现有综述主要聚焦于模型生命周期的特定阶段,如部署阶段或微调阶段,缺乏对LLM整个“生命链”的全面理解。为填补这一空白,本文首次引入“全栈安全”概念,系统性地考量LLM从训练、部署到最终商业化的全过程安全问题。与现有的LLM安全综述相比,我们的工作展现出几大独特优势:(一)全面视角。我们将完整的LLM生命周期定义为涵盖数据准备、预训练、后训练、部署及最终商业化。据我们所知,这是首个覆盖LLM全生命周期的安全综述。(二)广泛的文献支持。我们的研究基于对800多篇论文的详尽回顾,确保了在更全面理解框架下对安全问题的系统梳理与覆盖。(三)独到见解。通过系统的文献分析,我们为每一章节构建了可靠的路线图与视角。我们的工作识别了包括数据生成安全、对齐技术、模型编辑及基于LLM的代理系统安全在内的多个有前景的研究方向,为未来该领域的研究者提供了宝贵的指导。
近期,DeepSeek-R1(671B)(DeepSeek-AI等,2025)在复杂任务中展现了卓越的推理能力,并公开了其方法论。这为激发小型大语言模型(LLMs)的推理能力提供了潜在的高质量思维链(CoT)数据。为了为不同LLMs生成高质量的CoT数据,我们探索了一种高效的方法,即生成具有LLM自适应问题难度级别的高质量CoT数据。首先,我们根据LLMs自身的推理能力对问题难度进行分级,并构建了一个LLM自适应问题数据库。其次,基于问题难度级别的分布从问题库中采样,随后利用DeepSeek-R1(671B)(DeepSeek-AI等,2025)生成相应的高质量CoT数据及正确答案。得益于构建的LLM自适应难度级别的CoT数据,我们显著降低了数据生成成本,并提升了模型监督微调(SFT)的效率。最后,我们在复杂数学竞赛和代码生成任务领域验证了所提方法的有效性和泛化能力。值得注意的是,仅使用2k条高质量数学CoT数据,我们的ZMath-32B在数学推理任务上便超越了DeepSeek-Distill-32B。同样,仅使用2k条高质量代码CoT数据,我们的ZCode-32B在代码推理任务中也超越了DeepSeek-Distill-32B。
鉴于数据标注成本高昂,基准数据集常采用已有图像数据集的标签。本研究中,我们评估了MSCOCO数据集中的标签错误对常用目标幻觉基准POPE的影响。我们对基准图像进行了重新标注,发现不同子集间存在标注错误的不均衡现象。基于修订后的标签(我们称之为RePOPE)对多个模型进行评估,观察到模型排名出现显著变化,凸显了标签质量的重要性。代码与数据已发布于https://github.com/YanNeu/RePOPE。
因果分析在科学发现与可靠决策中扮演着基础性角色,然而,由于其概念与算法上的复杂性,领域专家往往难以触及这一工具。因果方法论与实际应用之间的脱节带来了双重挑战:领域专家无法充分利用因果学习的最新进展,而因果研究者则缺乏广泛的现实世界部署来检验和完善其方法。为此,我们推出了Causal-Copilot,一个在大语言模型框架内实现专家级因果分析的自主智能体。Causal-Copilot自动化了针对表格数据和时间序列数据的完整因果分析流程——包括因果发现、因果推断、算法选择、超参数优化、结果解读及可操作见解的生成。它通过自然语言支持交互式精炼,降低了非专业人士的使用门槛,同时保持了方法论的严谨性。通过整合超过20种最先进的因果分析技术,我们的系统促进了良性循环——为领域专家拓宽了高级因果方法的获取途径,同时生成了丰富的现实应用,这些应用不仅指导也推动了因果理论的发展。实证评估表明,Causal-Copilot相较于现有基线展现出卓越性能,提供了一个可靠、可扩展且灵活的解决方案,有效弥合了因果分析中理论精妙与现实应用之间的鸿沟。Causal-Copilot的实时互动演示可在https://causalcopilot.com/访问。
C到Rust的转译对于现代化遗留C代码、提升安全性以及与现代Rust生态系统的互操作性至关重要。然而,目前尚缺乏一个数据集来评估系统是否能够将C代码转译为通过一系列测试用例的安全Rust代码。我们推出了CRUST-Bench,这是一个包含100个C语言仓库的数据集,每个仓库都配有手动编写的安全Rust接口及用于验证转译正确性的测试用例。通过考虑整个仓库而非孤立函数,CRUST-Bench捕捉了跨多文件依赖的复杂项目翻译的挑战。提供的Rust接口明确了规范,确保遵循惯用且内存安全的Rust模式,而配套的测试用例则强制执行功能正确性。我们评估了当前最先进的大型语言模型(LLMs)在此任务上的表现,发现生成安全且惯用的Rust代码对于多种前沿方法和技术仍具挑战。我们还深入分析了LLMs在从C转译至安全Rust时常见的错误。表现最佳的模型OpenAI o1,在单次尝试设置下仅能解决15个任务。对CRUST-Bench的改进将推动转译系统的发展,使其能够处理复杂场景,并助力将遗留代码库从C迁移至确保内存安全的语言如Rust。数据集与代码可在https://github.com/anirudhkhatry/CRUST-bench获取。
在现实世界的文档处理中,复选框至关重要,其勾选与否直接关系到数据提取和决策流程。然而,尽管大型视觉与语言模型在众多任务中表现出色,它们在解析可勾选内容方面仍面临挑战。这一难题在那些单个被忽视的复选框可能导致高昂的监管或合同疏漏的行业中尤为紧迫。为填补这一空白,我们推出了CheckboxQA数据集,这是一个专门设计用于评估和提升模型在复选框相关任务上表现的资源。该数据集揭示了当前模型的局限性,并作为推动文档理解系统进步的重要工具,对法律科技和金融等领域的应用具有深远意义。 数据集已公开提供,访问地址为: https://github.com/Snowflake-Labs/CheckboxQA
多任务视觉定位(MTVG)包含两个子任务,即指代表达理解(REC)和指代表达分割(RES)。现有代表性方法通常遵循的研究流程主要包括三个核心步骤:分别为视觉与语言模态的独立特征提取、跨模态交互模块,以及针对不同子任务的独立预测头。尽管取得了显著性能,这一研究路线存在两个局限:1)语言内容尚未充分注入整个视觉骨干网络以促进更有效的视觉特征提取,且需要额外的跨模态交互模块;2)REC与RES任务间的关系未被有效利用以辅助协同预测,从而获得更精确的输出。为解决这些问题,本文提出了一种渐进式语言引导视觉学习框架,名为PLVL,用于多任务视觉定位。该框架不仅精细挖掘视觉模态自身的固有特征表达,还逐步注入语言信息以辅助学习与语言相关的视觉特征。如此,我们的PLVL无需额外跨模态融合模块,同时充分引入了语言指导。此外,我们分析发现,REC的定位中心在一定程度上能帮助识别RES待分割的目标区域。受此启发,我们设计了一个多任务头,以实现这两个子任务的协同预测。在多个基准数据集上进行的大量实验全面证实,我们的PLVL在REC和RES任务上均明显优于代表性方法。 https://github.com/jcwang0602/PLVL