每日精选AI研究论文及翻译
尽管深度学习在众多领域取得了显著成就,但在表格学习任务上,其表现历来逊色于梯度提升决策树(GBDTs)。然而,近期的进展正为表格基础模型(Tabular Foundation Models)铺平道路,这类模型能够利用现实世界的知识,并在包含自由文本的多样化数据集上实现泛化。虽然将语言模型能力融入表格任务已有探索,但现有方法大多采用静态、目标无关的文本表示,限制了其效能。我们推出了TabSTAR:一种具备语义目标感知表示的表格基础模型。TabSTAR旨在支持带有文本特征的表格数据上的迁移学习,其架构不含数据集特定参数。它解冻了预训练的文本编码器,并以目标标记作为输入,为模型提供学习任务特定嵌入所需的上下文。TabSTAR在包含文本特征的分类任务基准测试中,对中大型数据集均实现了最先进的性能,其预训练阶段展现出数据集数量上的扩展规律,为进一步性能提升指明了路径。
近期的大型推理模型(LRMs)通过强化学习(RL)展现了强大的推理能力。这些改进主要在短上下文推理任务中得以体现。相比之下,将LRMs扩展至能够有效处理并推理长上下文输入仍是一个亟待解决的关键挑战。为填补这一空白,我们首先形式化了长上下文推理RL的范式,并识别出训练效率低下和优化过程不稳定等核心挑战。针对这些问题,我们提出了QwenLong-L1框架,该框架通过渐进式上下文扩展,将短上下文LRMs适配至长上下文场景。具体而言,我们利用预热监督微调(SFT)阶段建立稳健的初始策略,随后采用课程引导的分阶段RL技术稳定策略演化,并辅以难度感知的回顾采样策略激励策略探索。在七个长上下文文档问答基准上的实验表明,QwenLong-L1-32B超越了OpenAI-o3-mini和Qwen3-235B-A22B等旗舰LRMs,性能与Claude-3.7-Sonnet-Thinking相当,在现有最先进的LRMs中展现了领先性能。本研究推动了能够在信息密集环境中进行稳健推理的实用长上下文LRMs的发展。
大型语言模型(LLMs)在复杂推理任务上表现出色,但其高昂的计算成本限制了实际应用。为解决这一问题,近期研究致力于通过教师LLMs的思维链(CoT)轨迹,将推理能力蒸馏至更小的语言模型(sLMs)。然而,在需要罕见事实知识或精确计算的场景中,sLMs常因能力有限而产生幻觉。为此,我们提出了代理蒸馏框架,旨在将基于LLM的代理的完整任务解决行为,包括推理能力,转移至配备检索和代码工具的sLMs中。我们从两个互补方向改进代理蒸馏:(1)引入“首思前缀”提示法,提升教师生成轨迹的质量;(2)提出自洽动作生成,增强小代理在测试时的鲁棒性。我们在涵盖事实与数学领域的八项推理任务上评估了该方法,包括域内与域外泛化。结果显示,参数规模仅为0.5B、1.5B、3B的sLMs,其性能可与使用CoT蒸馏微调的更大规模1.5B、3B、7B模型相媲美,证明了代理蒸馏在构建实用、工具使用型小代理方面的潜力。代码已发布于https://github.com/Nardien/agent-distillation。
大型语言模型(LLMs)的快速发展伴随着计算需求的空前增长,顶尖模型的训练成本每几个月便翻一番。直接在低精度算术中训练模型提供了一种解决方案,既提升了计算吞吐量,又提高了能源效率。特别是,NVIDIA最新的Blackwell架构支持极低精度运算,尤其是FP4变体,预示着显著的效率提升。然而,当前在FP4精度下训练LLM的算法面临显著的精度下降问题,并常依赖于混合精度回退机制。本文中,我们系统研究了硬件支持的FP4训练,并提出了Quartet,一种新方法,能够实现精确的端到端FP4训练,所有主要计算(如线性层)均在低精度下完成。通过对Llama类模型的大量评估,我们揭示了一种新的低精度缩放定律,该定律量化了不同位宽下的性能权衡,使我们能够识别出一种在精度与计算之间达到“近最优”的低精度训练技术,即Quartet。我们利用为NVIDIA Blackwell GPU定制的优化CUDA内核实现了Quartet,并展示了其在FP4精度下能够达到顶尖的精度,成功训练了十亿级规模的模型。我们的方法证明,完全基于FP4的训练是标准精度和FP8训练的有力替代方案。我们的代码可在https://github.com/IST-DASLab/Quartet获取。
大型语言模型在应对复杂且冗长的推理任务时展现出了卓越的能力。然而,这些模型常常表现出对熟悉推理模式的过度依赖,我们称这种现象为“推理僵化”。即使用户给出了明确的指令,模型仍频繁忽视这些明确的条件,转而采用习惯性的推理路径,从而导致错误结论。这种行为在数学和逻辑谜题等领域尤为突出,因为在这些领域中,严格遵守特定约束条件至关重要。为了系统性地研究这一在先前工作中鲜有探讨的推理僵化现象,我们引入了一个由专家精心策划的诊断数据集。该数据集包含对现有数学基准(如AIME和MATH500)的特别修改版本,以及特意重新设计、要求偏离常规推理策略的知名谜题。通过这一数据集,我们识别出模型在默认采用固有推理方式时出现的重复污染模式。具体而言,我们将这种污染归类为三种独特模式:(i) 解释过载,(ii) 输入不信任,以及(iii) 部分指令关注,每种模式都导致模型忽视或曲解所提供的指令。我们公开了此诊断数据集,以促进未来在缓解语言模型推理僵化方面的研究。
强化学习(RL)显著提升了视觉语言模型(VLMs)的推理能力。然而,在推理任务之外,尤其是在物体检测与定位等感知密集型任务中,RL的应用仍鲜有探索。我们提出了V-Triune,一个视觉三元统一强化学习系统,它使得VLMs能够在单一训练流程中同时学习视觉推理与感知任务。V-Triune包含三个互补组件:样本级数据格式化(统一多样任务输入)、验证器级奖励计算(通过专用验证器提供定制奖励)和源级指标监控(在数据源层面诊断问题)。我们进一步引入了一种新颖的动态IoU奖励机制,为V-Triune处理的感知任务提供自适应、渐进且明确的反馈。我们的方法在现成的RL训练框架中实现,采用了开源的7B和32B骨干模型。由此产生的模型,命名为Orsta(一RL观万象),在推理与感知任务上均展现出持续改进。这一广泛能力很大程度上得益于其在多样化数据集上的训练,该数据集围绕四项代表性视觉推理任务(数学、谜题、图表、科学)和四项视觉感知任务(定位、检测、计数、OCR)构建。随后,Orsta在MEGA-Bench Core上取得了显著提升,其7B和32B模型变体的改进幅度从+2.1到令人印象深刻的+14.1不等,且性能优势延伸至广泛的下游任务。这些成果凸显了我们统一RL方法在VLMs中的有效性和可扩展性。V-Triune系统及Orsta模型已公开于https://github.com/MiniMax-AI。
现有基准测试未能捕捉到智能的一个关键方面:物理推理,即整合领域知识、符号推理及对现实世界约束理解的综合能力。为填补这一空白,我们推出了PhyX:首个旨在评估模型在视觉场景中进行物理基础推理能力的大规模基准测试。PhyX包含3000道精心策划的多模态问题,涵盖6种推理类型,跨越25个子领域及6大核心物理领域:热力学、电磁学、力学、现代物理学、光学以及波与声学。在我们的全面评估中,即便是最先进的模型在物理推理上也表现欠佳,GPT-4o、Claude3.7-Sonnet和GPT-o4-mini的准确率分别仅为32.5%、42.2%和45.8%,与人类专家相比,性能差距超过29%。我们的分析揭示了当前模型的关键局限:过度依赖记忆的学科知识、过分倚重数学公式,以及停留在表面的视觉模式匹配,而非真正的物理理解。我们通过细粒度统计数据、详细案例研究和多种评估范式,深入剖析了物理推理能力。为确保可复现性,我们基于VLMEvalKit等广泛使用的工具包,实现了一键式评估的兼容协议。
本技术报告介绍了QwenLong-CPRS,一种专为显式长上下文优化设计的上下文压缩框架,旨在解决大语言模型(LLMs)在长序列处理过程中预填充阶段的高昂计算开销以及“中间迷失”性能下降问题。通过一种新颖的动态上下文优化机制实现,QwenLong-CPRS支持基于自然语言指令的多粒度上下文压缩,既提升了效率又改善了性能。 作为Qwen架构系列的演进,QwenLong-CPRS引入了四项关键创新:(1)自然语言引导的动态优化,(2)增强边界感知的双向推理层,(3)配备语言建模头的令牌评判机制,以及(4)窗口并行推理。 在涵盖4K至2M单词上下文的五项基准测试中,QwenLong-CPRS展现出三重有效性:(1)在准确性和效率上持续优于RAG和稀疏注意力等其他上下文管理方法;(2)与所有旗舰LLMs(包括GPT-4o、Gemini2.0-pro、Claude3.7-sonnet、DeepSeek-v3和Qwen2.5-max)架构无关的集成,实现了21.59倍的上下文压缩,同时带来19.15个百分点的平均性能提升;(3)结合Qwen2.5-32B-Instruct部署,QwenLong-CPRS在Ruler-128K和InfiniteBench上分别超越领先的专有LLMs 4.85和10.88个百分点,确立了新的SOTA性能。
随着模型预训练阶段扩展计算资源(数据和参数)的边际成本持续显著上升,测试时扩展(TTS)作为一种在推理阶段分配额外计算以提升生成模型性能的途径,展现出广阔前景。尽管TTS在多项语言任务中已取得显著成效,但对于图像和视频生成模型(基于扩散或流模型)的测试时扩展行为理解仍存在明显空白。虽然近期研究已开始探索视觉任务的推理时策略,但这些方法面临关键局限:局限于特定任务领域、可扩展性差,或陷入奖励过度优化而牺牲样本多样性。本文提出进化搜索(EvoSearch),一种新颖、通用且高效的TTS方法,无需额外训练或模型扩展,即可有效增强扩散和流模型在图像与视频生成上的可扩展性。EvoSearch将扩散和流模型的测试时扩展重构为进化搜索问题,借鉴生物进化原理,高效探索并优化去噪轨迹。通过精心设计针对随机微分方程去噪过程的选择与变异机制,EvoSearch在保持种群多样性的同时,迭代生成更高质量的后代。通过对图像和视频生成任务中扩散与流架构的广泛评估,我们证明该方法持续超越现有方法,实现更高多样性,并对未见评估指标展现出强大的泛化能力。项目详情请访问https://tinnerhrhe.github.io/evosearch。
假设排序是自动化科学发现中的关键环节,尤其在自然科学研究中,湿实验室实验成本高昂且通量有限。现有方法主要关注实验前的排序,仅依赖大型语言模型的内部推理,而未纳入实验的实证结果。我们提出了实验引导排序这一任务,旨在根据先前测试假设的结果来优先排序候选假设。然而,在自然科学领域,由于重复进行真实实验的不切实际性,开发此类策略面临挑战。为此,我们提出了一个基于三个领域知识假设的模拟器,将假设表现建模为与已知真实假设相似度的函数,并引入噪声扰动。我们整理了一个包含124个化学假设及其实验报告结果的数据集,以验证该模拟器。基于此模拟器,我们开发了一种伪实验引导排序方法,该方法通过共享功能特征对假设进行聚类,并根据模拟实验反馈得出的见解优先排序候选假设。实验表明,我们的方法优于实验前基线及强消融模型。
初始噪声的选择对视频扩散模型的质量和提示对齐具有显著影响,同一提示下不同的噪声种子可能导致截然不同的生成结果。尽管现有方法依赖于外部设计的先验,如频率滤波器或帧间平滑处理,但它们往往忽视了模型内部信号,这些信号能够指示哪些噪声种子本质上更为优越。为此,我们提出了ANSE(主动噪声选择生成框架),这是一个模型感知的框架,通过量化基于注意力的不确定性来筛选高质量噪声种子。其核心是BANSA(基于贝叶斯的主动噪声选择通过注意力),一种获取函数,它通过测量多个随机注意力样本间的熵分歧来估计模型的置信度和一致性。为了在推理时高效部署,我们引入了BANSA的伯努利掩码近似方法,使得仅需一次扩散步骤和部分注意力层即可完成分数估计。在CogVideoX-2B和5B上的实验表明,ANSE分别仅增加了8%和13%的推理时间,就显著提升了视频质量和时间连贯性,为视频扩散中的噪声选择提供了一种原则性强且可推广的方法。访问我们的项目页面:https://anse-project.github.io/anse-project/
大型推理模型(LRMs)在运用思维链(CoT)推理处理复杂任务方面表现出色。然而,其过度思考的倾向导致推理链不必要地冗长,显著增加了推理成本。为解决这一问题,我们引入了VeriThinker,一种新颖的CoT压缩方法。与直接在原始推理任务上使用合成简洁CoT数据微调LRMs的传统方法不同,我们创新性地仅通过辅助验证任务对模型进行微调。通过训练LRMs准确验证CoT解决方案的正确性,模型自然会对后续自我反思步骤的必要性更加敏锐,从而有效抑制过度思考。大量实验验证,VeriThinker在保持甚至略微提升准确率的同时,显著缩短了推理链长度。应用于DeepSeek-R1-Distill-Qwen-7B时,我们的方法在MATH500上将推理标记从3790减少至2125,同时准确率提升0.8%(从94.0%至94.8%);在AIME25上,标记数从14321降至10287,准确率提升2.1%(从38.7%至40.8%)。此外,我们的实验表明,VeriThinker也能零样本泛化至推测性推理。代码已发布于https://github.com/czg1225/VeriThinker。
理解视觉场景是人类智能的基础。虽然判别模型极大地推动了计算机视觉的发展,但它们通常在组合理解方面存在困难。相比之下,最近的生成式文本到图像扩散模型在合成复杂场景方面表现出色,暗示了其内在的组合能力。基于此,零样本扩散分类器被提出,旨在将扩散模型重新用于判别任务。尽管先前的研究在判别组合场景中展示了有前景的结果,但由于基准测试数量有限且对模型成功条件的分析相对浅显,这些结果仍处于初步阶段。为解决这一问题,我们对扩散分类器在广泛组合任务中的判别能力进行了全面研究。具体而言,我们的研究涵盖了三个扩散模型(SD 1.5、2.0,以及首次引入的3-m),跨越10个数据集和超过30项任务。此外,我们揭示了目标数据集领域在各自性能中的作用;为隔离领域效应,我们引入了一个新的诊断基准Self-Bench,该基准由扩散模型自身生成的图像构成。最后,我们探讨了时间步权重的重要性,并揭示了领域差距与时间步敏感性之间的关系,特别是对于SD3-m。总之,扩散分类器能够理解组合性,但需满足特定条件!代码和数据集可在https://github.com/eugene6923/Diffusion-Classifiers-Compositionality获取。
利用有符号距离函数等体积表示法生成高分辨率三维形状,面临着巨大的计算与内存挑战。我们提出了Direct3D S2,一个基于稀疏体素的可扩展三维生成框架,该框架在显著降低训练成本的同时,实现了卓越的输出质量。我们的核心创新在于空间稀疏注意力机制(Spatial Sparse Attention, SSA),它极大提升了扩散变换器在稀疏体素数据上的计算效率。SSA使得模型能够高效处理稀疏体素中的大规模标记集,显著减少了计算开销,在前向传播中实现了3.9倍的加速,在反向传播中更是达到了9.6倍的加速。此外,我们的框架还包含了一个变分自编码器,确保输入、潜在空间及输出阶段均保持一致的稀疏体素格式。相较于以往在三维变分自编码器中采用异构表示的方法,这一统一设计显著提升了训练效率与稳定性。我们的模型在公开数据集上进行了训练,实验结果表明,Direct3D S2不仅在生成质量和效率上超越了现有最先进方法,还能仅用8块GPU完成1024分辨率的训练任务,而传统体积表示法在256分辨率下通常需要至少32块GPU,从而使得千兆级三维生成变得既实用又易于实现。项目页面:https://nju3dv.github.io/projects/Direct3D-S2/。
音频大语言模型(ALLMs)的快速发展和广泛应用,亟需对其可信度进行严谨评估。然而,针对这些模型的系统性研究,尤其是涉及音频模态特有风险的评估,仍处于探索初期。现有的评估框架主要集中于文本模态,或仅涵盖有限的安全维度,未能充分考虑音频模态特有的属性与应用场景。为此,我们推出了AudioTrust——首个专为ALLMs设计的多维度可信度评估框架与基准。AudioTrust支持从公平性、幻觉、安全性、隐私性、鲁棒性和认证性这六大核心维度进行全面评估。为深入探究这些维度,AudioTrust围绕18种不同的实验设置构建,其核心是一个精心编制的包含超过4,420个音频/文本样本的数据集,这些样本源自现实场景(如日常对话、紧急呼叫、语音助手交互),专门用于探测ALLMs的多维度可信度。在评估方面,该基准精心设计了9个音频特有的评价指标,并采用大规模自动化流程对模型输出进行客观且可扩展的评分。实验结果表明,当前最先进的开源与闭源ALLMs在面对多种高风险音频场景时的可信度边界与局限,为未来音频模型的安全可信部署提供了宝贵洞见。我们的平台与基准可在https://github.com/JusperLee/AudioTrust获取。
大型语言模型展现出位置偏差——即对特定上下文位置信息的系统性忽视——然而其与语言多样性的相互作用仍鲜为人知。我们开展了一项跨语言研究,涵盖五种类型学上迥异的语言(英语、俄语、德语、印地语、越南语),探讨位置偏差如何与模型不确定性、句法结构及提示方式相互影响。主要发现如下:(1) 位置偏差由模型驱动,且存在语言特异性变化——Qwen2.5-7B偏好后置信息,挑战了早期令牌偏差的假设;(2) 明确的定位指导(如,正确信息位于位置X)降低了跨语言的准确性,削弱了提示工程实践的效果;(3) 使上下文与位置偏差对齐会增加熵值,但最低熵值并不能预测准确性。(4) 我们进一步发现,在印地语等自由词序语言中,大型语言模型对主导词序的施加方式有所不同。
检索增强生成(RAG)系统赋予大型语言模型(LLMs)在推理过程中访问外部知识的能力。近期进展通过强化学习(RL)使LLMs能够作为搜索代理,通过与检索引擎的多轮交互提升信息获取效率。然而,现有方法要么仅使用搜索指标(如NDCG)优化检索,忽视了后续应用的价值;要么对整个LLM进行微调,使其同时进行推理与检索,这种做法将检索与生成过程紧密耦合,限制了实际搜索效用及与冻结或专有模型的兼容性。本研究提出s3,一个轻量级、模型无关的框架,它将搜索器与生成器解耦,并采用“超越RAG增益”作为奖励来训练搜索器:即相较于基础RAG在生成准确性上的提升。s3仅需2.4k训练样本即可超越基于超过70倍数据训练的基线模型,在六项通用问答和五项医疗问答基准测试中持续展现出更优的下游性能。
由于幻觉文本的复杂性,使大型语言模型(LLMs)准确检测幻觉仍是一项重大挑战。认识到幻觉样本通常比传统负样本具有更高的欺骗性质量,我们在DPO对齐过程中将这些精心设计的幻觉作为负例使用。我们的方法融入了课程学习策略,逐步从基于独立事实核查模型概率得分最大降幅识别的较易样本,过渡到逐渐更难的样本。这种结构化的难度分级确保了稳定且渐进的学习。实验评估表明,采用课程DPO方法和高质量负样本训练的HaluCheck模型,在各项指标上显著提升了模型性能,在MedHallu和HaluEval等困难基准测试中实现了高达24%的改进。此外,HaluCheck模型在零样本设置下展现出鲁棒性,在多个基准测试中显著优于更大的最先进模型。
前端工程涉及一个复杂的工作流程,工程师们需构思设计、将其转化为代码,并迭代优化实现。尽管近期基准测试主要聚焦于将视觉设计转换为代码,我们提出了FullFront,这是一个旨在评估多模态大语言模型(MLLMs)在整个前端开发流程中表现的基准。FullFront评估了直接映射到前端工程流程的三个基本任务:网页设计(构思阶段)、网页感知问答(理解视觉组织与元素)以及网页代码生成(实现阶段)。与现有基准不同,后者要么使用代码臃肿的抓取网站,要么采用过于简化的LLM生成的HTML,FullFront采用了一种新颖的两阶段过程,将现实世界的网页转化为干净、标准化的HTML,同时保持多样化的视觉设计并避免版权问题。对最先进MLLMs的广泛测试揭示了在页面感知、代码生成(尤其是图像处理和布局)以及交互实现方面的显著局限。我们的结果定量展示了不同模型和任务间的性能差异,并凸显了当前MLLM能力与人类专家在前端工程领域表现之间的巨大差距。FullFront基准及代码可在https://github.com/Mikivishy/FullFront获取。
强化学习(RL)已成为训练推理模型的有效方法。然而,现有的RL方法通常会将模型的输出分布偏向于奖励最大化的路径,而未能引入外部知识。这限制了其探索能力,导致与基础模型相比,推理能力边界更为狭窄。为解决这一局限,我们提出了TAPO(思维增强策略优化),这是一个通过融入外部高层次指导(“思维模式”)来增强RL的新颖框架。通过在训练过程中自适应地整合结构化思维,TAPO有效地平衡了模型内部的探索与外部指导的利用。大量实验表明,我们的方法在AIME上显著优于GRPO达99%,在AMC上提升41%,在Minerva Math上提高17%。值得注意的是,这些仅从500个先验样本中抽象出的高层次思维模式,能够有效泛化到各种任务和模型中。这凸显了TAPO在跨任务和跨领域应用中的广泛潜力。我们的进一步分析表明,引入外部指导能够生成具有更强推理能力的模型,其推理行为具有更优的可解释性,输出结果的可读性也得到显著提升。
大型语言模型(LLMs)展现了令人瞩目的能力,但在时间智能方面却显得薄弱,难以将过去事件的推理与未来预测及合理生成相结合。现有方法通常针对孤立的时间技能,如关于过去事件的问答或基础预测,且泛化能力较差,尤其是在处理超出其知识截止点或需要创造性前瞻的事件时。为应对这些局限,我们推出了Time-R1,这是首个赋予中等规模(30亿参数)LLM全面时间能力的框架:理解、预测及创造性生成。我们的方法采用了一种新颖的三阶段发展路径;前两阶段构成了由精心设计的动态规则奖励系统驱动的强化学习(RL)课程。该框架逐步构建了(1)基于历史数据的基础时间理解与逻辑事件-时间映射,(2)超越知识截止点的未来事件预测能力,最终(3)实现了无需微调即可在创造性未来场景生成上的显著泛化。引人注目的是,实验表明,Time-R1在极具挑战性的未来事件预测和创造性场景生成基准测试中,超越了规模超过其200倍的模型,包括最先进的6710亿参数DeepSeek-R1。这项工作有力证明了,经过精心设计、渐进式的RL微调,能让更小、高效的模型在时间性能上达到卓越,为真正具备时间感知的AI提供了一条实用且可扩展的路径。为促进进一步研究,我们还发布了Time-Bench,一个基于十年新闻数据的大规模多任务时间推理数据集,以及我们的Time-R1系列检查点。
大型语言模型(LLM)驱动的语音助手快速发展,凸显了对训练这些系统所需的语音指令数据的需求。尽管语音识别数据丰富,但用于微调模型以理解和执行口头指令的语音指令数据却显著匮乏。生成高质量的合成语音需要良好的文本转语音(TTS)模型,而低资源语言可能无法获得此类模型。我们的创新方法通过在语义表示层面停止合成,绕过了对TTS的需求,从而应对这一挑战。我们通过将合成语义表示与预训练的Whisper编码器对齐,实现了这一目标,使得LLM能够在文本指令上进行微调,同时保持推理过程中理解语音指令的能力。这一简化的训练过程为构建低资源语言的语音助手提供了一种有前景的途径。
以GPT-4o、Gemini和o3为代表的原生多模态模型和全能模型的快速发展,标志着智能演进的一个重要里程碑。这些模型能够处理和生成跨模态内容,如文本和图像。系统评估其在视觉思维过程(也称为多模态思维链,M-CoT)中的多模态输出能力变得至关重要。然而,现有的多模态模型评估基准主要关注多模态输入和纯文本推理,而忽视了通过多模态输出进行推理的重要性。本文提出了一个名为RBench-V的基准,旨在评估模型的视觉不可或缺的推理能力。为构建RBench-V,我们精心挑选了803个涵盖数学、物理、计数和游戏的问题。与以往通常指定某些输入模态的基准不同,RBench-V提出的问题以多模态输出为核心,需要图像操作,如生成新图像和构建辅助线以支持推理过程。我们在RBench-V上评估了众多开源和闭源模型,包括o3、Gemini 2.5 Pro、Qwen2.5-VL等。即使表现最好的模型o3,在RBench-V上的准确率也仅为25.8%,远低于人类的82.3%,这表明当前模型在多模态推理方面仍面临挑战。数据和代码可在https://evalmodels.github.io/rbenchv获取。
恢复受多种恶劣天气条件影响的夜间图像是一个实际但尚未充分探索的研究课题,因为在现实世界中,多种天气条件常常与夜间的各种光照效果并存。本文首次探讨了具有挑战性的多天气夜间图像恢复任务,其中各类天气退化与光晕效应相互交织。为支持该研究,我们贡献了AllWeatherNight数据集,该数据集包含大规模高质量夜间图像,具有多样化的复合退化特征,这些图像是通过我们提出的光照感知退化生成方法合成的。此外,我们提出了ClearNight,一个统一的夜间图像恢复框架,能够一次性有效去除复杂的退化。具体而言,ClearNight提取基于Retinex的双重先验,并明确引导网络分别关注不均匀光照区域和内在纹理内容,从而提升夜间场景下的恢复效果。为了更好地表征多种天气退化的共性与独特性,我们引入了一种天气感知的动态特异性-共性协作方法,该方法识别天气退化并自适应选择与特定天气类型相关的最优候选单元。我们的ClearNight在合成图像和真实世界图像上均实现了最先进的性能。全面的消融实验验证了AllWeatherNight数据集的必要性以及ClearNight的有效性。项目页面:https://henlyta.github.io/ClearNight/mainpage.html
教导大型语言模型(LLMs)在给定上下文中保持忠实性,对于构建可靠的信息检索系统至关重要。为此,我们提出了一个系统化框架——CANOE,旨在无需人工标注的情况下,提升LLMs在短文本和长文本生成任务中的忠实度。具体而言,我们首先通过合成包含四种多样化任务的短文本问答(QA)数据,构建高质量且易于验证的训练数据集,无需人工标注。此外,我们提出了Dual-GRPO,一种基于规则的强化学习方法,该方法包含三种从合成短文本QA数据中提取的定制化规则奖励,同时优化短文本和长文本的响应生成。值得注意的是,Dual-GRPO无需手动标注偏好数据来训练奖励模型,并避免了仅依赖合成短文本QA数据时对短文本生成的过度优化。实验结果表明,CANOE在11种不同的下游任务中显著提升了LLMs的忠实度,甚至超越了最先进的LLMs,如GPT-4o和OpenAI o1。
强化学习(RL)是一种将基础模型适配到特定任务的有效方法,但其对大规模人工标注数据的依赖限制了广泛应用。我们提出了合成数据强化学习(Synthetic Data RL),这是一个简单且通用的框架,仅利用任务定义生成的合成数据进行模型强化微调。我们的方法首先从任务定义和检索文档中生成问答对,然后根据模型的可解性调整问题难度,并通过模型在样本上的平均通过率选择问题用于RL训练。在Qwen-2.5-7B模型上,我们的方法在GSM8K数据集上相比基础模型实现了29.2%的绝对提升(相较于指令微调提升2.9个百分点,相较于Self-Instruct提升6.6个百分点),在MATH数据集上提升8.7%,在GPQA数据集上提升13.1%(相较于SynthLLM提升7.0个百分点),在MedQA数据集上提升8.9%,在法律领域的CQA数据集上提升17.7%,在金融领域的CFA数据集上提升13.7%。在相同数据预算下,它超越了监督微调,并在多个数据集上几乎达到了使用全量人工数据的RL效果(例如,在GSM8K上提升17.2个百分点)。添加100个人工示范仅使GSM8K的性能提升0.4个百分点,显示出有限的附加价值。通过减少人工数据标注,合成数据强化学习实现了可扩展且高效的基于RL的模型适配。代码和演示可在https://github.com/gydpku/Data_Synthesis_RL/获取。
Trinity-RFT 是一款通用、灵活且可扩展的框架,专为大规模语言模型的强化微调(RFT)而设计。该框架采用解耦式架构,包含三大核心组件:(1) RFT核心模块,统一并泛化了同步/异步、在线/离线以及策略内/策略外等多种RFT模式;(2) 高效稳健的智能体-环境交互集成机制;(3) 为RFT优化的系统化数据管道。Trinity-RFT 能够轻松适应多样化的应用场景,并作为探索先进强化学习范式的统一平台。本技术报告详细阐述了 Trinity-RFT 的愿景、特性、设计与实现,并通过大量示例展示了该框架的实用性与用户友好性。
我们推出ScanBot,这是一个专为机器人系统中指令驱动的高精度表面扫描而设计的新型数据集。与现有专注于抓取、导航或对话等粗略任务的机器人学习数据集不同,ScanBot瞄准了工业激光扫描对高精度的严苛要求,其中亚毫米级的路径连续性和参数稳定性至关重要。该数据集涵盖了机器人对12种不同物体执行的激光扫描轨迹,涉及6种任务类型,包括全表面扫描、几何重点区域、空间参考部件、功能相关结构、缺陷检测及对比分析。每次扫描均以自然语言指令为引导,并同步记录RGB图像、深度信息、激光轮廓,以及机器人姿态和关节状态。尽管近期有所进展,现有的视觉语言动作(VLA)模型在细粒度指令和现实世界精度要求下仍难以生成稳定的扫描轨迹。为探究这一局限,我们在一系列多模态大语言模型(MLLMs)上进行了从感知到规划再到执行的全流程基准测试,揭示了在现实约束条件下指令跟随的持续挑战。
视觉语言模型(VLMs)的快速部署放大了安全风险,然而大多数评估仍依赖于人工生成的图像。本研究提出:当面对普通用户分享的表情包图像时,当前的VLMs安全性如何?为探究这一问题,我们引入了MemeSafetyBench,一个包含50,430个实例的基准测试集,将真实的表情包图像与有害及无害的指令配对。通过采用全面的安全分类法和基于大语言模型(LLM)的指令生成,我们评估了多个VLMs在单轮及多轮交互中的表现。我们研究了现实世界中的表情包如何影响有害输出、对话上下文的缓解作用,以及模型规模与安全指标之间的关系。研究结果表明,相较于合成或文字图像,VLMs对基于表情包的有害提示表现出更高的脆弱性。与纯文本输入相比,表情包显著增加了有害响应并减少了拒绝率。尽管多轮交互提供了一定程度的缓解,但高脆弱性依然存在。这些结果强调了进行生态效度评估和加强安全机制的必要性。
尽管文本到图像(T2I)生成领域近期取得了进展,现有模型在处理简短且描述不充分的提示时,往往难以准确捕捉用户意图。虽然先前的研究尝试利用大型语言模型(LLMs)来增强提示,但这些方法由于缺乏对视觉语义和现实世界构图的充分把握,常常生成风格化或不切实际的内容。受语言模型推理最新进展的启发,我们提出了RePrompt,一种新颖的重新提示框架,通过强化学习将显式推理引入提示增强过程。与依赖手工规则或风格化改写不同,我们的方法训练语言模型生成结构化、自我反思的提示,通过优化图像级结果来实现。定制的奖励模型从人类偏好、语义对齐和视觉构图等方面评估生成的图像,为提示生成提供间接监督,从而实现无需人工标注数据的端到端训练。在GenEval和T2I-Compbench上的实验表明,RePrompt显著提升了空间布局的忠实度和跨多种T2I骨干网络的组合泛化能力,创下了新的最先进成果。
可控视频生成(CVG)技术已取得显著进展,然而现有系统在面对多个主体需在噪声控制信号下移动、互动及交换位置时仍显不足。我们通过DanceTogether填补了这一空白,这是首个端到端的扩散框架,能够将单一参考图像与独立的姿态掩码流转化为长时、逼真的视频,同时严格保持每个身份的完整性。新颖的MaskPoseAdapter在每一步去噪过程中,通过融合鲁棒的跟踪掩码与语义丰富但含噪的姿态热图,将“谁”与“如何”紧密绑定,消除了困扰逐帧处理流程的身份漂移和外观渗漏问题。为了大规模训练与评估,我们引入了(i) PairFS-4K,包含26小时的双滑冰者视频,涵盖7,000多个独特身份;(ii) HumanRob-300,一个时长一小时的人形机器人互动数据集,用于快速跨领域迁移;以及(iii) TogetherVideoBench,一个三轨基准测试,围绕DanceTogEval-100测试集展开,涵盖舞蹈、拳击、摔跤、瑜伽和花样滑冰。在TogetherVideoBench上,DanceTogether以显著优势超越了现有技术。此外,我们展示了一小时的微调即可生成令人信服的人机互动视频,凸显了其在具身AI和人机交互任务中的广泛泛化能力。大量消融实验证实,持续的身份-动作绑定是这些提升的关键。综合来看,我们的模型、数据集和基准测试将CVG从单一主体编排提升至可组合控制的多主体互动,为数字制作、模拟和具身智能开辟了新途径。我们的视频演示和代码可在https://DanceTog.github.io/获取。
我们提出了RIPT-VLA,这是一种基于强化学习的简单且可扩展的交互式后训练范式,它仅利用稀疏的二元成功奖励对预训练的视觉-语言-动作(VLA)模型进行微调。现有的VLA训练流程严重依赖离线专家示范数据和监督模仿,这限制了它们在低数据环境下适应新任务和新环境的能力。RIPT-VLA通过引入基于动态滚动采样和留一法优势估计的稳定策略优化算法,实现了交互式后训练,有效解决了这一问题。 RIPT-VLA具备以下特点:首先,它适用于多种VLA模型,使轻量级QueST模型的性能提升了21.2%,并将7B参数的OpenVLA-OFT模型的成功率推至前所未有的97.5%。其次,它在计算和数据使用上均高效:仅需一次示范,RIPT-VLA便能让原本无法工作的SFT模型(成功率4%)在15次迭代内达到97%的成功率。此外,我们展示了RIPT-VLA学习到的策略能够泛化至不同任务和场景,并对初始状态上下文具有鲁棒性。这些成果凸显了RIPT-VLA作为一种通过最小化监督实现VLA模型后训练的实用且有效的范式。
大型语言模型通常通过在特定领域数据上进行监督微调来适应下游任务。标准的微调方法主要关注最小化生成损失以优化模型参数,而我们则更进一步,保留并利用模型自身的学习信号,这类似于人类学习者通过反思过往错误来提升未来表现。我们首先引入了“错误日志”这一概念,以系统性地追踪模型在微调过程中的学习行为及重复错误。将原始的基于Transformer的模型视为“领航员”,我们相应地设计了一个“副驾驶”模型,通过修正logits来优化领航员的推理性能。我们将这一整体框架命名为“Transformer副驾驶”,它包含三个创新点:(i) 一种新颖的副驾驶模型设计,(ii) 一种联合训练范式,其中副驾驶持续从不断演变的错误日志中学习,与领航员同步进步,以及(iii) 一种融合推理范式,副驾驶通过修正领航员的logits来增强生成效果。我们为这一新学习框架提供了理论与实证分析。在涵盖常识、算术及推荐任务的12个基准测试中,实验表明Transformer副驾驶能持续提升性能,最高可达34.5%,同时仅对领航员模型引入边际计算开销,并展现出良好的可扩展性与迁移能力。
近期,大型语言模型(LLM)代理的进展主要依托于如ReAct这样的推理框架,该框架在复杂环境中交替进行思考与行动。然而,ReAct常产生脱离实际或逻辑混乱的推理步骤,导致代理的实际状态与目标之间出现偏差。我们的分析发现,这源于ReAct无法维持一致的内部信念与目标对齐,从而引发错误累积与幻觉现象。为解决这一问题,我们提出了ReflAct,一种新型推理框架,它将推理从单纯规划下一步行动转向持续反思代理状态与其目标的相对关系。通过明确地将决策基于当前状态并强化持续的目标对齐,ReflAct显著提升了策略的可靠性。这一设计带来了显著的实证成果:ReflAct在ALFWorld任务中平均超越ReAct 27.7%,成功率高达93.3%。值得注意的是,即便ReAct配备了额外的增强模块(如Reflexion、WKM),ReflAct仍表现更优,这表明强化核心推理框架是确保代理性能可靠的关键。
策略梯度算法已成功应用于增强大型语言模型(LLMs)的推理能力。尽管在策略梯度算法中广泛使用Kullback-Leibler(KL)正则化以稳定训练,但如何系统地探索不同KL散度公式的估计及其融入在线强化学习(RL)代理损失函数的设计空间,仍是一个细致且可系统探索的领域。本文提出正则化策略梯度(RPG),一个在在线RL环境下推导和分析KL正则化策略梯度方法的系统框架。我们推导了针对前向和反向KL散度正则化目标的策略梯度及其相应的代理损失函数,同时考虑了归一化和非归一化的策略分布。此外,我们还展示了完全可微损失函数以及REINFORCE风格梯度估计器的推导,以满足多样化的算法需求。我们利用这些方法在LLM推理的RL任务上进行了广泛实验,结果表明在训练稳定性和性能方面相比GRPO、REINFORCE++和DAPO等强基线方法,取得了改进或具有竞争力的结果。代码已发布于https://github.com/complex-reasoning/RPG。
本文提出了一种针对长上下文推理轨迹进行价值模型训练的简洁高效方法。相较于现有的过程奖励模型(PRMs),我们的方法无需定义细粒度的“步骤”概念,这一概念在长上下文推理模型中往往难以界定。通过收集包含250万条推理轨迹的数据集,我们训练了一个15亿token级别的价值模型,并将其应用于DeepSeek模型,以提升测试时计算扩展的性能。研究发现,采用块级价值引导搜索(VGS)结合最终加权多数投票,在测试时扩展性上优于多数投票或最佳n项选择等标准方法。在64次生成的推理预算下,使用DeepSeek-R1-Distill-1.5B模型的VGS在四项数学竞赛基准(AIME 2024 & 2025, HMMT Feb 2024 & 2025)上平均准确率达到45.7%,与o3-mini-medium模型持平。此外,VGS显著降低了达到与多数投票相同性能所需的推理浮点运算次数。我们的数据集、模型及代码库均已开源。
本论文揭示了一项引人入胜的发现:通过训练一个自回归大语言模型(LLM)处理文本标记,该文本模型在内部自发地发展出了理解图像和音频的能力,从而仅通过阅读便获得了视觉与听觉的感知。当前流行的音频和视觉LLM模型通常是对文本LLM模型进行微调,以生成基于图像和音频嵌入的文本输出。相比之下,我们的架构直接接收图像块、音频波形或标记作为输入,并输出分类管道中典型的嵌入或类别标签。我们展示了文本权重在辅助音频分类任务中的普适性,特别是在FSD-50K和GTZAN数据集上的应用。此外,我们还验证了该方法在CIFAR-10、Fashion-MNIST以及图像块分类任务中的有效性。这一发现深化了文本LLM学习强大内部电路的概念,表明通过激活必要连接即可应用于多种场景,而无需每次都从头训练模型。
残差连接对于深度神经网络至关重要,它通过缓解梯度消失问题,使得网络能够达到更深的层次。然而,在标准的残差更新中,模块的输出直接加到了输入流上。这种做法可能导致更新主要强化或调整现有流的方向,从而可能未能充分利用模块学习全新特征的能力。在本研究中,我们引入了正交残差更新:我们将模块的输出相对于输入流进行分解,并仅添加与该流正交的分量。这一设计旨在引导模块主要贡献新的表示方向,促进更丰富的特征学习,同时提升训练效率。我们证明,这种正交更新策略在多种架构(如ResNetV2、视觉Transformer)和数据集(如CIFARs、TinyImageNet、ImageNet-1k)上均能提升泛化精度和训练稳定性,例如,在ImageNet-1k上,ViT-B的top-1准确率提升了+4.3%。
专家混合模型(Mixture-of-Experts, MoE)通过推理过程中稀疏激活的专家,实现了大型语言模型(LLMs)的高效扩展。为了在内存受限的设备上有效部署大型MoE模型,许多系统引入了*专家卸载*机制,将一部分专家缓存于快速内存中,而将其他专家保留在慢速内存中,以便在CPU上运行或按需加载。尽管已有研究利用了专家激活的局部性,即连续令牌倾向于激活相似的专家,但这种**局部路由一致性**的程度因模型而异,且尚未得到充分研究。本文提出了两种衡量MoE模型局部路由一致性的指标:(1) **段路由最佳性能(SRP)**,评估固定专家组对一段令牌需求的覆盖能力;(2) **段缓存最佳命中率(SCH)**,衡量在给定缓存大小限制下,段级缓存的最优命中率。我们分析了20个不同规模和架构的MoE LLMs,发现那些在每一层应用MoE且不使用共享专家的模型展现出最高的局部路由一致性。进一步研究表明,领域专业化专家比词汇专业化专家对路由一致性的贡献更大,且大多数模型能在缓存大小约为活跃专家数量两倍时,在缓存效果与效率之间取得平衡。这些发现为在不牺牲推理速度的前提下,设计并部署内存高效的MoE模型铺平了道路。我们公开了实验复现代码,详见https://github.com/ljcleo/moe-lrc。
近期如DeepSeek R1-Zero等进展凸显了激励训练的有效性,这是一种强化学习范式,仅基于语言模型输出的最终答案部分计算奖励,从而鼓励生成中间推理步骤。然而,这些方法从根本上依赖于外部验证器,这限制了它们在数学和编程等验证器易于获取的领域中的应用。尽管奖励模型可作为验证器,但它们需要高质量标注数据且训练成本高昂。在本研究中,我们提出了NOVER,即无验证器强化学习,这是一种通用的强化学习框架,仅需标准的监督微调数据,无需外部验证器。NOVER使得激励训练能够广泛应用于文本到文本任务,并在相同规模的模型上,相较于从DeepSeek R1 671B等大型推理模型蒸馏出的模型,性能提升了7.7%。此外,NOVER的灵活性为优化大型语言模型开辟了新途径,例如逆向激励训练。
随着大型语言模型(LLMs)在企业和政府等敏感领域的应用日益增多,确保其在上下文中遵循用户定义的安全策略变得至关重要,尤其是在信息保密方面。尽管以往的LLM研究主要集中在通用安全性和社会敏感数据上,但针对上下文安全防护的大规模基准测试仍显不足。为此,我们引入了一个新颖的大规模基准数据集——CoPriva,用于评估LLM在问答场景中对上下文保密策略的遵循情况。该数据集源自现实情境,包含明确的策略和查询,这些查询被设计为直接和具有挑战性的间接攻击,旨在获取被禁止的信息。我们在该基准上评估了10个LLM,揭示了一个显著漏洞:许多模型违反用户定义的策略,泄露敏感信息。这一失败在应对间接攻击时尤为严重,凸显了当前LLM在敏感应用中的安全对齐存在关键缺口。我们的分析表明,虽然模型通常能够识别查询的正确答案,但在生成过程中难以融入策略约束。相比之下,当明确提示时,它们展现出部分修正输出的能力。我们的发现强调了迫切需要更强大的方法来保障上下文安全。
大型推理模型(LRMs)在多步推理及适时调用搜索引擎方面展现了卓越能力。然而,现有的检索增强推理方法依赖于独立的检索模型,将LRM在检索中的角色局限于决定何时检索及如何查询。这种分离不仅增加了硬件和运营成本,还因表示瓶颈现象——即检索器的嵌入空间不足以满足生成器需求——导致检索过程中的错误。为解决这一问题,我们转变视角,从序列到序列的匹配转向在语料库中定位包含答案的路径,并提出了一种名为FREESON(无检索器的检索增强推理)的新框架。该框架使LRMs能够通过同时充当生成器和检索器,自主检索相关知识。为此,我们引入了一种专为检索任务设计的MCTS算法变体,称为CT-MCTS(语料库遍历蒙特卡洛树搜索)。在此算法中,LRMs遍历语料库,向包含答案的区域进发。我们在五个开放域问答基准上的测试结果,包括单跳和多跳问题,显示FREESON在EM和F1指标上平均比四个配备独立检索器的多步推理模型提升了14.4%,并且在最强基线模型上表现相当,在PopQA和2WikiMultihopQA上分别超出3%和2%。
在多跳问答任务中,迭代式检索增强生成(RAG)面临长上下文和无关信息累积的挑战。这些问题阻碍了模型处理并推理检索内容的能力,限制了其性能表现。尽管近期方法聚焦于压缩检索信息,但它们要么仅限于单轮RAG,要么需要微调,或在迭代RAG中缺乏可扩展性。为应对这些挑战,我们提出了“笔记撰写”方法,该方法在每一步从检索文档中生成简洁且相关的笔记,从而减少噪声,仅保留关键信息。这间接增加了大型语言模型(LLMs)的有效上下文长度,使其在处理更大规模输入文本时能更有效地进行推理和规划。“笔记撰写”与框架无关,可集成于不同的迭代RAG方法中。我们通过在两种模型和四个评估数据集上应用三种迭代RAG方法,验证了其有效性。结果显示,“笔记撰写”平均整体提升了15.6个百分点,且输出标记数仅略有增加。
时序推理对于大型语言模型(LLMs)理解现实世界至关重要。然而,现有研究忽视了时序推理在现实世界中的挑战:(1) 密集的时间信息,(2) 快速变化的事件动态,以及(3) 社交互动中复杂的时间依赖关系。为填补这一空白,我们提出了一个多层次基准测试TIME,专为现实场景下的时序推理设计。TIME包含38,522个问答对,覆盖3个层次共11个细粒度子任务。该基准测试包含三个子数据集,分别反映不同的现实挑战:TIME-Wiki、TIME-News和TIME-Dial。我们对推理模型和非推理模型进行了广泛的实验,并深入分析了不同现实场景和任务中的时序推理表现,总结了测试时扩展对时序推理能力的影响。此外,我们发布了TIME-Lite,一个经过人工标注的子集,以促进未来时序推理研究和标准化评估。代码可在https://github.com/sylvain-wei/TIME获取,数据集可在https://huggingface.co/datasets/SylvainWei/TIME获取。
提升大型语言模型(LLMs)的语言能力以涵盖低资源语言,是一个至关重要的研究领域。当前的研究方向主要依赖于通过翻译英语语料库生成的合成数据,虽然这些数据展示了良好的语言理解和翻译能力,但往往导致模型与源语言文化对齐。这些模型常常无法体现当地社区的文化遗产和价值观。本研究提出了一种方法,旨在创建既包含合成数据又基于检索的预训练数据,这些数据专门针对特定社区,考虑其(i)语言,(ii)文化遗产,以及(iii)文化价值观。我们以埃及和摩洛哥方言为测试平台,展示了我们的方法,选择它们是因为其语言和文化的丰富性,以及目前在LLMs中的代表性不足。作为概念验证,我们开发了NileChat,一个拥有30亿参数的LLM,专为埃及和摩洛哥社区定制,融入了他们的语言、文化遗产和价值观。我们在各种理解、翻译、文化及价值观对齐基准测试中的结果表明,NileChat在性能上超越了现有相似规模的阿拉伯语感知LLMs,并与更大规模的模型表现相当。我们向社区分享我们的方法、数据和模型,以促进在LLM开发中纳入和覆盖更多元化的社区。
本文提出了一种以中文为核心的多语言机器翻译模型——FuxiMT,该模型基于稀疏化的大型语言模型(LLM)构建。我们采用两阶段策略训练FuxiMT:首先在庞大的中文语料库上进行预训练,随后在涵盖65种语言的大规模平行数据集上进行多语言微调。FuxiMT集成了专家混合(MoEs)机制,并运用课程学习策略,以确保在不同资源条件下均能保持稳健性能。实验结果表明,FuxiMT显著超越了包括最先进的LLM和机器翻译模型在内的强基线,尤其在低资源场景下表现尤为突出。此外,FuxiMT对未见过的语言对展现出卓越的零样本翻译能力,表明其在平行数据稀缺或缺失情况下具有弥合沟通鸿沟的潜力。
从头肽段测序是蛋白质组学中的一项关键任务。然而,当前基于深度学习的方法受限于质谱数据固有的复杂性及噪声信号的异质分布,导致数据特异性偏差。我们提出了RankNovo,这是首个通过整合多种测序模型的互补优势来增强从头肽段测序的深度重排序框架。RankNovo采用列表式重排序策略,将候选肽段建模为多重序列比对,并利用轴向注意力机制提取跨候选者的信息特征。此外,我们引入了两个新指标——PMD(肽段质量偏差)和RMD(残基质量偏差),通过在序列和残基层面量化肽段间的质量差异,提供精细的监督。大量实验表明,RankNovo不仅超越了用于生成训练候选者的基础模型,还设立了新的最先进基准。更重要的是,RankNovo在训练过程中未接触的模型生成数据上展现出强大的零样本泛化能力,凸显了其作为肽段测序通用重排序框架的稳健性和潜力。我们的工作提出了一种新颖的重排序策略,从根本上挑战了现有的单一模型范式,并推动了准确从头测序的前沿发展。源代码已发布于GitHub平台。