每日精选AI研究论文及翻译
在本研究中,我们推出了Qwen模型家族的最新版本——Qwen3。Qwen3包含一系列大型语言模型(LLMs),旨在提升性能、效率及多语言处理能力。该系列涵盖了从0.6亿到2350亿参数规模的密集架构与专家混合(MoE)架构模型。Qwen3的一项关键创新在于将思维模式(用于复杂多步推理)与非思维模式(用于快速上下文响应)整合至统一框架中,从而无需在不同模型间切换——如聊天优化模型(例如GPT-4o)与专用推理模型(例如QwQ-32B)——并支持基于用户查询或聊天模板的动态模式切换。同时,Qwen3引入了思维预算机制,允许用户在推理过程中自适应地分配计算资源,根据任务复杂度平衡延迟与性能。此外,通过借鉴旗舰模型的知识,我们大幅减少了构建小规模模型所需的计算资源,同时确保其具备高度竞争力。实证评估表明,Qwen3在包括代码生成、数学推理、代理任务等在内的多样化基准测试中均达到了业界领先水平,与更大规模的MoE模型及专有模型相抗衡。相较于前代Qwen2.5,Qwen3将多语言支持从29种扩展至119种语言及方言,通过增强跨语言理解与生成能力,提升了全球可访问性。为促进可复现性及社区驱动的研发,所有Qwen3模型均以Apache 2.0许可公开。
为提升视觉语言模型(VLM)的安全性,本文提出了一种新颖的基于推理的VLM防护模型,命名为GuardReasoner-VL。其核心理念是通过在线强化学习(RL)激励防护模型在做出审核决策前进行深思熟虑的推理。首先,我们构建了GuardReasoner-VLTrain,这是一个包含123K样本和631K推理步骤的推理语料库,涵盖文本、图像及图文混合输入。随后,基于此,我们通过监督微调(SFT)冷启动模型的推理能力。此外,我们进一步通过在线RL增强模型在审核方面的推理能力。具体而言,为提升样本的多样性和难度,我们实施了拒绝采样,并通过提出的安全感知数据拼接进行数据增强。同时,采用动态裁剪参数以鼓励早期阶段的探索和后期阶段的利用。为平衡性能与令牌效率,我们设计了一种长度感知的安全奖励机制,综合了准确性、格式及令牌成本。大量实验验证了我们模型的优越性,其平均F1分数显著超越第二名19.27%。我们已在https://github.com/yueliu1999/GuardReasoner-VL/发布了GuardReasoner-VL的数据、代码及模型(3B/7B)。
近年来,大型语言模型(LLMs)及其多模态扩展(MLLMs)的显著进展极大地提升了机器在多样化任务中的推理能力。然而,这些模型主要依赖纯文本作为表达和构建推理的媒介,即便在视觉信息存在的情况下也是如此。本研究提出,语言可能并非总是最自然或最有效的推理模态,尤其是在涉及空间和几何信息的任务中。基于此,我们倡导一种新范式——视觉规划,它通过纯视觉表示进行规划,独立于文本。在这一范式中,规划通过一系列图像执行,这些图像在视觉领域编码逐步推理,类似于人类绘制或设想未来行动的方式。我们引入了一种新颖的强化学习框架——视觉规划强化学习(VPRL),该框架借助GRPO技术对大型视觉模型进行后训练,从而在代表性视觉导航任务(如FrozenLake、Maze和MiniBehavior)中显著提升了规划能力。我们的视觉规划范式在所有仅依赖文本空间进行推理的规划变体中表现优异。研究结果确立了视觉规划作为基于语言推理的可行且有前景的替代方案,为那些受益于直观、基于图像推理的任务开辟了新途径。
大型视觉语言模型上下文窗口的快速扩展催生了长上下文视觉语言模型(LCVLMs),这些模型能够在一个前向传播中处理数百张图像与交错排列的文本标记。在本研究中,我们推出了MMLongBench,这是首个涵盖多样化长上下文视觉语言任务的基准测试,旨在全面有效地评估LCVLMs。MMLongBench包含13,331个样本,跨越五大类下游任务,如视觉检索增强生成(Visual RAG)和多示例上下文学习(Many-Shot ICL)。它还广泛覆盖了多种图像类型,包括各类自然图像与合成图像。为了评估模型对不同输入长度的鲁棒性,所有样本均通过结合视觉块与文本标记的跨模态标记化方案,以五种标准化输入长度(8K至128K标记)呈现。通过对46个闭源与开源LCVLMs的深入基准测试,我们提供了当前模型在视觉语言长上下文能力上的全面分析。研究结果表明:i)单一任务的表现难以全面代表长上下文能力;ii)无论是闭源还是开源模型,在长上下文视觉语言任务中均面临挑战,表明未来有大幅提升空间;iii)具备更强推理能力的模型往往展现出更优的长上下文性能。通过提供广泛的任务覆盖、多样的图像类型及严格的长度控制,MMLongBench为诊断并推动下一代LCVLMs的发展奠定了不可或缺的基础。
近期,大型语言模型(LLMs)的进展展现了通过自我生成的思维链进行推理的强大能力。多个推理代理可以协作,将联合推理质量提升至超越个体成果的水平。然而,这类代理通常以轮替方式交互,以增加延迟为代价换取质量的提升。本文提出“群体思维”(Group Think)——一个作为多个并发推理代理或思考者运作的单一LLM。通过共享彼此部分生成进度的可见性,群体思维引入了一种新的并发推理范式,其中多个推理轨迹在令牌级别上动态相互适应。例如,一个推理线程在检测到另一线程更适合继续时,可能会在句子中间调整其生成。这种细粒度的、令牌级别的协作使群体思维能够减少冗余推理,在显著降低延迟的同时提高质量。此外,其并发特性允许高效利用闲置计算资源,使其特别适合边缘推理场景,在那里,极小的批量大小往往导致本地GPU利用率不足。我们提供了一种简单且可推广的修改方法,使任何现有LLM都能在本地GPU上执行群体思维。我们还提出了一种评估策略来基准测试推理延迟,并实证展示了使用未针对群体思维显式训练的开源LLM实现的延迟改进。我们希望这项工作为未来LLM展现更复杂、更高效的协作行为,以实现更高质量的生成铺平道路。
视觉-语言模型(VLMs)通过利用丰富的文本信息,在少量标注数据的情况下,已在多种任务中取得了显著成功。然而,在资源受限的环境中部署这类大型模型仍面临挑战。知识蒸馏(KD)为此提供了一个成熟的解决方案;然而,近期针对VLMs的KD方法往往涉及多阶段训练或额外调优,增加了计算开销和优化复杂度。本文提出了一种名为\texttt{D}ual-\texttt{H}ead \texttt{O}ptimization(\texttt{DHO})的简单而有效的KD框架,该框架在半监督设置下将知识从VLMs迁移至紧凑的任务特定模型。具体而言,我们引入了双预测头,分别从标注数据和教师预测中独立学习,并建议在推理时线性结合它们的输出。我们观察到,DHO缓解了监督信号与蒸馏信号之间的梯度冲突,相比单头KD基线,实现了更有效的特征学习。因此,大量实验表明,DHO在多个领域和细粒度数据集上均持续超越基线方法。特别是在ImageNet上,它达到了最先进的性能,在使用1%和10%标注数据时,分别将准确率提升了3%和0.1%,同时使用了更少的参数。
模型融合技术使得无需额外训练即可将现有模型的能力整合到一个新模型中,这一后处理方式因其低成本及支持消费级GPU融合的库的普及而日益流行。近期研究表明,将融合技术与进化算法结合可提升性能,但目前尚无框架支持在语言模型中灵活尝试此类策略。为此,我们推出了Mergenetic,一个用于进化模型融合的开源库。Mergenetic不仅简化了融合方法与进化算法的组合,还引入了轻量级适应度评估器以降低评估成本。我们详述了其设计理念,并通过实验证明,Mergenetic在多种任务和语言上均能利用普通硬件取得具有竞争力的成果。
多令牌预测作为一种提升语言模型预训练效果的有前景目标已崭露头角,但其优势尚未在诸如微调等其他场景中普遍显现。本文提出MuToR,一种简单而有效的多令牌预测方法,它将可学习的寄存器令牌交错插入输入序列,每个令牌负责预测未来的目标。与现有方法相比,MuToR具备几大关键优势:仅引入极少量的额外参数,无需架构改动——确保与现成预训练语言模型的兼容性——且与下一令牌预训练目标保持一致,使其特别适用于监督微调。此外,它天然支持可扩展的预测范围。我们通过一系列用例,包括监督微调、参数高效微调(PEFT)及预训练,在语言和视觉领域的挑战性生成任务上,展示了MuToR的有效性与多功能性。我们的代码将发布于:https://github.com/nasosger/MuToR。
大型语言模型(LLMs)在广泛的编程任务中展现了卓越的性能,但其在代码优化方面的潜力尚未得到充分探索。本研究探讨了LLMs是否能够优化汇编代码的性能,其中对执行的精细控制使得改进难以在高级语言中表达。我们提出了一个强化学习框架,该框架使用近端策略优化(PPO)训练LLMs,并通过一个奖励函数进行指导,该函数考虑了通过测试用例验证的功能正确性,以及与行业标准编译器gcc -O3相比的执行性能。为了支持这项研究,我们引入了一个包含8,072个真实世界程序的基准。我们的模型Qwen2.5-Coder-7B-PPO实现了96.0%的测试通过率,并且相对于gcc -O3基线平均加速了1.47倍,优于包括Claude-3.7-sonnet在内的其他20个评估模型。这些结果表明,强化学习能够释放LLMs作为汇编代码性能有效优化器的潜力。
在形式语言中的自动定理证明(ATP)仍然是人工智能领域的一项艰巨挑战,它要求严格的逻辑推理并需在庞大的搜索空间中导航。尽管大型语言模型(LLMs)已展现出令人鼓舞的表现,现有的逐步证明器常因搜索引导的偏差而效率低下,导致证明策略不够优化。本文介绍了多视角搜索证明器(MPS-Prover),一种新颖的逐步ATP系统,旨在克服这些局限。MPS-Prover融合了两项关键创新:一是高效的训练后数据筛选策略,能在不牺牲性能的前提下削减约40%的冗余训练数据;二是多视角树搜索机制。该机制将学习到的评判模型与精心设计的启发式规则相结合,以多样化策略选择,避免陷入无效状态,并增强搜索的鲁棒性。广泛的评估表明,MPS-Prover在包括miniF2F和ProofNet在内的多个挑战性基准测试中达到了最先进的性能,超越了之前拥有70亿参数的模型。此外,我们的分析揭示,与现有的逐步及全证明方法相比,MPS-Prover生成的证明显著更短且更具多样性,凸显了其高效性与有效性。我们的研究推进了基于LLM的形式推理能力,并为开发更强大的定理证明器提供了一个稳健的框架和全面的分析。
尽管生成模型的能力迅速提升,预训练的文本到图像模型在捕捉由包含多个对象及实例级属性的复杂提示所传达的语义方面仍面临挑战。因此,我们观察到,在引导此类复杂情况下的生成过程中,整合额外结构约束(通常以粗略边界框的形式)的兴趣日益增长。在本研究中,我们将结构引导的理念更进一步,注意到当代图像生成模型能够直接提供一种合理的细粒度结构初始化。我们提出了一种技术,将这种基于图像的结构引导与基于大语言模型(LLM)的实例级指令相结合,从而生成完全遵循文本提示所有部分的输出图像,包括对象数量、实例级属性以及实例间的空间关系。
近期关于大语言模型(LLM)推理能力的研究表明,通过利用较长的思考过程及在推理阶段增加计算资源,模型性能尤其在数学推理任务中展现出显著提升(Muennighoff等,2025)。然而,更长的推理链是否本质上能提高事实准确性,尤其是在非数学领域,仍存疑问。本研究中,我们深入探讨了LLM在复杂开放域问答(QA)场景下的推理能力。我们首先从先进的大规模推理模型(如QwQ-32B和DeepSeek-R1-671B)中提炼推理轨迹,随后对一系列模型进行微调,这些模型涵盖从小型指令调优变体到基于Qwen2.5的大型架构。为了丰富推理轨迹,我们引入了知识图谱中的事实信息,以路径形式融入推理轨迹中。实验设置包括四种基线方法和六种不同的指令调优模型,在包含超过22.6K问题的六个数据集基准上进行评估。总体而言,我们进行了168次实验运行,分析了约170万条推理轨迹。研究结果显示,在单次运行中,较小的推理模型相较于其原始指令调优版本,在事实准确性上实现了显著提升。此外,我们的分析表明,增加测试时的计算和令牌预算,事实准确性持续提升2-8%,进一步证实了测试时扩展对于提升性能及开放域QA任务中推理准确性的有效性。我们公开了所有实验材料,以供进一步研究。
大型语言模型(LLMs)正日益应用于材料科学领域,涵盖文献理解、性能预测、材料发现及合金设计等方面。与此同时,一系列基于物理的计算方法已被开发,用于计算材料属性。本文提出了一种基准应用,旨在通过生成并安全执行基于此类物理计算材料科学软件包的代码,来评估LLMs解答材料科学问题的能力。MatTools构建于两个互补组件之上:一个材料模拟工具问答(QA)基准和一个现实世界工具使用基准。我们设计了一种自动化方法,以高效收集现实世界材料科学工具使用案例。QA基准源自pymatgen(Python材料基因组学)代码库及文档,包含69,225对QA,用于评估LLM理解材料科学工具的能力。现实世界基准则包含49项任务(138个子任务),要求生成用于材料性能计算的功能性Python代码。我们对多种LLMs的评估得出了三个关键发现:(1)通才胜过专才;(2)AI了解AI;(3)简单即佳。MatTools为评估和提升LLMs在材料科学工具应用中的能力提供了一个标准化框架,促进了开发更有效的AI系统以服务于材料科学及一般科学研究。
随着大型语言模型(LLMs)融入我们的社会和经济互动中,我们需要深入理解人类在战略环境中如何应对LLM对手。我们首次展示了在受控且有货币激励的实验室实验中,人类在多玩家p-选美竞赛中对抗其他人类与LLMs时的行为差异。采用被试内设计,以便在个体层面比较行为。研究表明,在此环境中,人类被试在与LLMs对战时选择的数字显著低于与人类对战时,这主要归因于“零”纳什均衡选择频率的增加。这一转变主要由具备高战略推理能力的被试驱动。选择零纳什均衡策略的被试,其动机源于对LLM推理能力的认知,以及出乎意料地,对LLM合作倾向的感知。我们的发现为多人同时选择游戏中的人-LLM互动提供了基础性见解,揭示了被试行为及对LLM游戏策略信念的异质性,并为混合人-LLM系统中的机制设计提出了重要启示。
利用自然语言指令编辑图像已成为一种自然而富有表现力的视觉内容修改方式;然而,评估此类模型的性能仍具挑战性。现有评估方法多依赖于如CLIP等图像-文本相似度度量,这些方法缺乏精确性。在本研究中,我们引入了一个新基准,旨在更扎实地评估文本引导的图像编辑模型,聚焦于两个关键维度:(i) 功能正确性,通过自动生成的多项选择题来验证预期修改是否成功实施;(ii) 图像内容保持度,采用对象感知掩码技术和保持评分,确保图像非目标区域在视觉上保持一致。该基准包含超过1000个高质量编辑示例,涵盖20个多样化内容类别,每个示例均附有详细的编辑指令、评估问题及空间对象掩码。我们开展了一项大规模研究,将文本引导图像编辑领域的最新旗舰模型GPT-Image-1与多个顶尖编辑模型进行对比,并验证了我们的自动指标与人工评分的一致性。结果显示,GPT-Image-1在指令遵循准确性上领先,但常过度修改无关图像区域,揭示了当前模型行为中的一个关键权衡。GIE-Bench为推进文本引导图像编辑更精准的评估提供了一个可扩展、可复现的框架。
手部在人类互动中至关重要,理解手部与世界的接触能促进对其功能的全面认识。近年来,涵盖与物体、另一只手、场景及身体交互的手部互动数据集日益增多。尽管该任务的重要性与日俱增且高质量数据不断积累,如何有效学习密集手部接触估计仍是一个待深入探索的领域。学习密集手部接触估计面临两大挑战:首先,手部接触数据集中存在类别不平衡问题,多数样本未处于接触状态;其次,数据集存在空间分布不均,大部分手部接触集中在指尖,这为推广至手部其他区域的接触带来了困难。为解决这些问题,我们提出了一个从非平衡数据中学习密集手部接触估计(HACO)的框架。针对类别不平衡,我们引入了平衡接触采样法,通过构建并采样多个能公平代表接触与非接触样本多样统计特征的采样组。此外,为应对空间分布不均,我们提出了顶点级类别平衡(VCB)损失函数,该函数通过根据每个顶点在数据集中的接触频率单独重新加权其损失贡献,从而融入了空间变化的接触分布。因此,我们能够有效利用大规模手部接触数据预测密集手部接触估计,而无需担忧类别与空间不平衡问题。相关代码将予以公开。
在生物医学图像中精确分割感兴趣区域对图像分析具有重要价值。尽管目前已有多种生物医学分割基础模型在特定数据集上表现出色,但它们通常在未见过的领域数据上表现欠佳。我们将这一不足归因于分割前缺乏视觉-语言知识。多模态大语言模型(MLLMs)为多模态任务带来了卓越的理解与推理能力,这启发我们利用MLLMs注入视觉-语言知识(VLK),从而使视觉模型在跨领域数据集上展现出更优的泛化能力。本文提出使用MLLMs指导SAM学习显微跨领域数据,统一命名为uLLSAM的显微图像任意分割方法。具体而言,我们提出了视觉-语言语义对齐(VLSA)模块,将VLK注入到任意分割模型(SAM)中。我们发现,SAM在接收全局VLK提示后,其性能显著提升,但在边界轮廓感知上存在不足。因此,我们进一步提出了语义边界正则化(SBR)来提示SAM。我们的方法在9个领域内显微数据集上实现了Dice系数7.71%和SA 12.10%的性能提升,达到了最先进的水平。同时,在10个领域外数据集上,我们的方法也展示了Dice系数6.79%和SA 10.08%的改进,展现了强大的泛化能力。代码可在https://github.com/ieellee/uLLSAM获取。
我们推出CheXGenBench,这是一个严格且多方面的评估框架,专为合成胸部X光片生成而设计,能够同时评估最先进的文本到图像生成模型在保真度、隐私风险及临床实用性方面的表现。尽管生成式AI在现实世界图像领域取得了快速进展,但医学领域的评估却因方法论不一致、过时的架构比较以及很少关注合成样本实际临床价值的割裂评估标准而受阻。CheXGenBench通过标准化数据划分和包含超过20项定量指标的统一评估协议,克服了这些局限,系统地分析了11种领先文本到图像架构的生成质量、潜在隐私漏洞及下游临床适用性。我们的研究结果揭示了现有评估协议中的关键低效之处,特别是在评估生成保真度方面,导致了不一致且信息不足的比较。我们的框架为医学AI社区建立了一个标准化基准,支持客观且可重复的比较,同时促进了现有及未来生成模型的无缝集成。此外,我们发布了一个高质量合成数据集SynthCheX-75K,包含由我们基准测试中表现最佳的模型(Sana 0.6B)生成的75,000张X光片,以支持这一关键领域的进一步研究。通过CheXGenBench,我们确立了新的技术前沿,并在https://raman1121.github.io/CheXGenBench/上发布了我们的框架、模型及SynthCheX-75K数据集。
大型语言模型(LLMs)的兴起加剧了人们对AI生成文本滥用的担忧,使得水印技术成为一种颇具前景的解决方案。当前主流的LLM水印方案主要分为两类:基于logits的和基于采样的。然而,现有方案在鲁棒性、文本质量和安全性之间往往存在权衡。为缓解这一问题,我们整合了基于logits和基于采样的方案,充分发挥各自优势以实现协同效应。本文中,我们提出了一种多功能共生水印框架,包含三种策略:串行、并行及混合。该混合框架通过利用令牌熵和语义熵自适应地嵌入水印,优化了可检测性、鲁棒性、文本质量与安全性之间的平衡。此外,我们在多种数据集和模型上进行了全面实验以验证方法的有效性。实验结果表明,我们的方法超越了现有基线,达到了当前最优(SOTA)性能。我们相信这一框架为多样化的水印范式提供了新的见解。代码已开源,详见https://github.com/redwyd/SymMark{https://github.com/redwyd/SymMark}。
基于推理时优化的风格迁移(ST-ITO)是一种新兴方法,旨在将参考音频的应用效果转移至原始音频轨道。该方法通过优化效果参数,以最小化处理后音频与参考音频风格嵌入之间的距离。然而,此方法对所有可能的配置一视同仁,且仅依赖嵌入空间,可能导致不切实际或带有偏差的结果。为解决这一问题,我们引入了一个基于人声预设数据集DiffVox的高斯先验,应用于参数空间。由此产生的优化过程等同于最大后验估计。在MedleyDB数据集上对人声效果迁移的评估显示,相较于基线方法,包括盲音频效果估计器、最近邻方法及未经校准的ST-ITO,所提方法在各项指标上均有显著提升。校准后的方法将参数均方误差降低了高达33%,并更好地匹配了参考风格。16名参与者的主观评价进一步证实了本方法的优越性,特别是在数据有限的情况下。本研究表明,在推理时融入先验知识能够增强音频效果迁移,为开发更高效、更逼真的音频处理系统铺平了道路。