每日精选AI研究论文及翻译
学术海报生成是科学传播中一项关键而具挑战性的任务,它要求将长篇交错的文档内容压缩至单页,并保持视觉上的连贯性。为应对这一挑战,我们首次引入了海报生成的基准测试与评价体系,该体系将近期会议论文与作者设计的海报配对,并从以下四个方面评估生成结果:(i)视觉质量——与人类设计海报的语义一致性,(ii)文本连贯性——语言流畅度,(iii)整体评估——由视觉语言模型(VLM)作为评判者,依据六项细化的美学与信息标准打分,以及尤为重要的(iv)论文测验——通过VLM回答基于海报生成的测验,衡量海报传达论文核心内容的能力。基于此基准,我们提出了PosterAgent,一种自上而下、视觉反馈循环的多智能体流程:(a)解析器将论文提炼为结构化资源库;(b)规划器将文本-视觉对按阅读顺序与空间平衡原则排列成二叉树布局;(c)绘制-评论循环通过执行渲染代码并利用VLM反馈优化每一面板,消除溢出并确保对齐。在全面评估中,我们发现GPT-4o的输出虽初看视觉吸引,但常伴有文本噪声且论文测验得分较低,而读者参与度是主要的美学瓶颈,因为人类设计海报主要依赖视觉语义传达意义。我们完全开源的版本(如基于Qwen-2.5系列)在几乎所有指标上均优于现有的4o驱动多智能体系统,同时减少了87%的token使用量。它仅需0.005美元,即可将22页论文转化为最终可编辑的.pptx格式海报。这些发现为下一代全自动海报生成模型指明了清晰方向。代码与数据集已发布于https://github.com/Paper2Poster/Paper2Poster。
大型语言模型(LLMs)的影响已超越自然语言处理领域,极大地推动了跨学科研究的发展。近期,多种基于LLM的智能体被开发出来,以协助科学发现进程,覆盖多个方面和领域。其中,能够像人类一样与操作系统交互的计算机使用智能体,正在为自动化科学问题解决和研究人员工作流程中的常规任务处理开辟道路。认识到这些智能体的变革潜力,我们推出了ScienceBoard,它包含两项互补性贡献:(一)一个现实的多领域环境,集成了动态且视觉丰富的科学工作流程与专业软件,智能体可通过不同界面自主交互,以加速复杂研究任务和实验;(二)一个由人类精心策划的、包含169项高质量且严格验证的现实世界任务的挑战性基准,涵盖生物化学、天文学和地理信息学等领域的科学发现工作流程。对搭载最先进架构(如GPT-4o、Claude 3.7、UI-TARS)的智能体进行的广泛评估显示,尽管取得了一些令人鼓舞的成果,它们在可靠协助科学家完成复杂工作流程方面仍显不足,整体成功率仅为15%。深入分析进一步为解决当前智能体局限性和设计更有效的原则提供了宝贵见解,为构建更强大的科学发现智能体铺平了道路。我们的代码、环境和基准可在https://qiushisun.github.io/ScienceBoard-Home/获取。
逻辑推理是人类智能的核心要素,也是多模态大语言模型(MLLMs)不可或缺的能力。尽管多模态推理领域已取得显著进展,但现有基准测试因缺乏对逻辑推理类型的明确分类及对推理理解的模糊,未能全面评估其推理能力。为解决这些问题,我们推出了MME-Reasoning,一个旨在全面评估MLLMs推理能力的基准测试,其问题涵盖归纳、演绎和溯因三种推理类型。我们精心筛选数据,确保每个问题有效评估推理能力而非感知技能或知识广度,并扩展评估协议以覆盖多样化问题的评价。我们的评估揭示了当前最先进的MLLMs在逻辑推理能力整体评估中的显著局限,即便最先进的模型在综合逻辑推理上也表现有限,且在不同推理类型间存在明显的性能失衡。此外,我们深入分析了如“思维模式”和基于规则的强化学习等被认为能提升推理能力的方法。这些发现凸显了当前MLLMs在多样化逻辑推理场景中的关键局限与性能失衡,为理解和评估推理能力提供了全面而系统的洞见。
近期,如OpenAI-o1和DeepSeek R1等进展展示了强化学习(RL)在提升大型语言模型(LLMs)推理能力方面的潜力。尽管开源复现工作主要集中在数学和编程领域,但开发通用推理能力的方法和资源仍显不足。这一空白部分源于收集适合RL的多样化且可验证的推理数据的挑战。我们假设逻辑推理对于发展通用推理能力至关重要,因为逻辑构成了推理的基本构建模块。在本研究中,我们提出了SynLogic,一个数据合成框架及数据集,能够大规模生成涵盖35种不同逻辑推理任务的多样化逻辑推理数据。SynLogic方法支持可控地合成难度和数量可调的数据。重要的是,所有示例均可通过简单规则验证,使其特别适合带有可验证奖励的RL训练。实验中,我们基于7B和32B模型验证了在SynLogic数据集上进行RL训练的有效性。SynLogic在开源数据集中实现了最先进的逻辑推理性能,在BBEH上超越DeepSeek-R1-Distill-Qwen-32B达6分。此外,将SynLogic数据与数学和编程任务混合,提升了这些领域的训练效率,并显著增强了推理的泛化能力。值得注意的是,我们的混合训练模型在多个基准测试中均优于DeepSeek-R1-Zero-Qwen-32B。这些发现确立了SynLogic作为推动LLMs更广泛推理能力发展的宝贵资源。我们已在https://github.com/MiniMax-AI/SynLogic开源了数据合成管道及SynLogic数据集。
扩散模型在图像风格化领域取得了显著进展,但仍面临两大核心挑战:(1) 在复杂场景中保持一致的风格化效果,特别是在身份、构图和细节方面;(2) 在使用风格LoRA的图像到图像处理流程中防止风格退化。GPT-4o在风格化一致性上的卓越表现凸显了开源方法与专有模型之间的性能差距。为弥合这一差距,我们提出了OmniConsistency,这是一个利用大规模扩散变换器(DiTs)的通用一致性插件。OmniConsistency的贡献包括:(1) 一种基于对齐图像对训练的上下文一致性学习框架,以实现稳健的泛化能力;(2) 一种两阶段渐进学习策略,将风格学习与一致性保持解耦,以减轻风格退化;(3) 一种完全即插即用的设计,兼容Flux框架下的任意风格LoRA。大量实验表明,OmniConsistency显著提升了视觉连贯性和美学质量,达到了与商业顶尖模型GPT-4o相媲美的性能。
近期一项研究表明,大型语言模型(LLMs)能够通过自回归生成,仅从一个经过特殊训练的输入嵌入中重建出惊人的长文本——长达数千个标记。在本研究中,我们探讨了这种重建是否可以在无需自回归的情况下实现。我们发现,冻结的LLMs在仅提供两个学习到的嵌入时,仅通过一次前向传播就能生成数百个准确的标记。这揭示了LLMs一个令人惊讶且尚未充分探索的能力——无需迭代解码的多标记生成。我们深入研究了这些嵌入的行为,并对其编码的信息类型提供了见解。我们还通过实验证明,尽管这些表示对于给定文本并非唯一,但它们在嵌入空间中形成了连通且局部的区域——这一特性暗示了学习专用编码器进入该空间的潜力。
大型语言模型(LLMs)在执行复杂推理任务时,高度依赖于扩展测试时的计算资源,通过生成冗长的“思考”链来达成目标。尽管这种方法展现了令人瞩目的成果,但也伴随着巨大的计算成本和推理时间。在本研究中,我们质疑了长思考链必然带来更好推理能力的假设。我们首先证明,在单个问题中,较短的推理链显著更有可能得出正确答案——比同一问题中最长链的准确率高出多达34.5%。基于这些发现,我们提出了short-m@k,一种新颖的LLM推理方法。该方法并行执行k次独立生成,并在完成前m个思考过程后立即停止计算,最终答案通过这m条链的多数投票决定。在低计算资源设置下,基础的short-1@k展现出与标准多数投票相当甚至更优的性能,同时减少了高达40%的思考标记使用。short-3@k虽在效率上略逊于short-1@k,但在所有计算预算下均稳定超越多数投票,且仍大幅缩短了时间(最多减少33%的墙钟时间)。受此启发,我们利用短、长及随机选择的推理链对LLM进行了微调,发现基于较短链的训练能带来更佳表现。我们的研究结果提示,应重新审视当前LLM推理中测试时计算资源的使用方式,强调更长的“思考”未必意味着性能提升,反而可能适得其反,导致结果退化。
主题到视频(S2V)生成旨在创建能够忠实融入参考内容的视频,为视频制作提供更高的灵活性。为构建S2V生成的基础设施,我们提出了OpenS2V-Nexus,包含(i)OpenS2V-Eval,一个细粒度基准测试,以及(ii)OpenS2V-5M,一个百万规模的数据集。与继承自VBench的现有S2V基准测试侧重于对生成视频进行全局和粗粒度评估不同,OpenS2V-Eval聚焦于模型生成主题一致视频的能力,确保主题外观自然且身份保真。为此,OpenS2V-Eval引入了来自七大S2V类别的180个提示,融合了真实与合成的测试数据。此外,为精准对齐人类偏好与S2V基准,我们提出了三个自动化指标——NexusScore、NaturalScore和GmeScore,分别量化生成视频中的主题一致性、自然度及文本相关性。基于此,我们对16个代表性S2V模型进行了全面评估,揭示了它们在不同内容上的优势与不足。同时,我们创建了首个开源的大规模S2V生成数据集OpenS2V-5M,包含五百万个高质量的720P主题-文本-视频三元组。具体而言,我们通过(1)分割主题并通过跨视频关联构建配对信息,以及(2)利用GPT-Image-1对原始帧进行提示以合成多视角表示,确保了数据集中主题信息的多样性。通过OpenS2V-Nexus,我们为加速未来S2V生成研究提供了坚实的基础设施。
近期,大型语言模型(LLMs)在函数级代码生成方面展现出潜力,然而,在仓库级软件工程任务上仍面临挑战。当前解决方案主要依赖专有的LLM代理,这带来了不可预测性并限制了可访问性,同时引发了数据隐私和模型定制方面的担忧。本文探讨了开源LLMs是否能在无需代理方法的情况下有效处理仓库级任务。我们通过让LLMs理解代码库中函数和文件的语义信息及结构依赖,证明了这一可能性。为此,我们引入了代码图模型(CGMs),它将仓库代码图结构整合到LLM的注意力机制中,并通过专用适配器将节点属性映射到LLM的输入空间。结合无代理图RAG框架,我们的方法在SWE-bench Lite基准测试中,使用开源模型Qwen2.5-72B实现了43.00%的解决率。这一表现在开源权重模型中排名第一,在开源系统方法中位列第二,总体排名第八,较之前最佳开源模型方法提升了12.33%。
测试时扩展(TTS)方法在提升大型语言模型(LLM)推理能力时,往往伴随着高昂的计算成本,这主要源于对外部过程奖励模型(PRM)或诸如最佳N采样(BoN)等方法的过度依赖。本文提出了一种名为“直觉引导”(GG)的高效自引导TTS框架,该框架无需依赖昂贵的外部验证模型,即可达到PRM级别的性能。我们的方法采用了一种轻量级的树搜索策略,仅依赖于LLM内部信号——即令牌级置信度和步骤新颖性进行引导。其中一项关键创新在于,通过有针对性的强化学习微调阶段,提升了内部置信度估计的可靠性。在具有挑战性的数学推理基准测试中,实证评估显示,GG使得较小模型(例如1.5B参数)能够达到甚至超越显著更大模型(如32B-70B参数)的准确度,同时将GPU内存使用量减少高达10倍。与基于PRM的方法相比,GG在保持相当准确度的同时,实现了8倍的推理速度提升和4-5倍的内存使用降低。此外,相较于BoN策略,GG还将KV缓存内存使用量减少了约50%,从而促进了TTS技术更为高效和实用的部署。
多模态大语言模型(MLLMs)的最新进展实现了对语言、视觉和结构化输入的统一处理,为逻辑推理、空间推理和科学分析等复杂任务打开了大门。尽管前景广阔,但MLLMs的推理能力,尤其是那些通过中间思维轨迹增强的模型(MLLMs-T),仍鲜为人知,且缺乏标准化的评估基准。现有研究主要关注感知或最终答案的正确性,对模型在多模态间如何推理或失败提供了有限的洞察。为填补这一空白,我们引入了MMMR,这是一个旨在严格评估多模态显性推理的新基准。MMMR包含:1)一个高难度数据集,涵盖六种不同推理类型的1083个问题,具有符号深度和多跳需求;2)一个模块化的推理轨迹评估管道(RTEP),通过相关性、一致性和结构化错误注释等指标,评估推理质量而不仅仅是准确性。实证结果表明,MLLMs-T总体上优于非思维增强的模型,但即使是Claude-3.7-Sonnet和Gemini-2.5 Pro等顶级模型,也存在不一致和过度思考等推理缺陷。该基准揭示了准确性与推理质量之间的持续差距,并为未来模型开发提供了可操作的评估管道。总体而言,MMMR为评估、比较和改进下一代多模态推理系统提供了一个可扩展的基础。
将强化学习(RL)应用于视频大语言模型(Video-LLMs)在复杂视频推理任务中展现出显著潜力。然而,流行的强化微调(RFT)方法,如基于结果的群体相对策略优化(GRPO),受限于数据准备瓶颈(如噪声或高成本),且在长链思维(CoTs)质量和下游性能提升上表现不稳定。为解决这些局限,我们提出了VerIPO,一种验证器引导的迭代策略优化方法,旨在逐步提升视频LLMs生成深度、长期推理链的能力。其核心组件是Rollout-Aware Verifier,它位于GRPO与直接偏好优化(DPO)训练阶段之间,形成GRPO-Verifier-DPO训练循环。该验证器利用小型LLMs作为评判者,评估rollouts的推理逻辑,从而构建高质量的对立数据,包括反思性和上下文一致的CoTs。这些精选的偏好样本驱动高效的DPO阶段(比GRPO快7倍),显著提升了推理链的质量,特别是在长度和上下文一致性方面。此训练循环结合了GRPO的广泛搜索与DPO的精准优化优势。实验结果表明:1)相较于标准GRPO变体,优化速度显著加快且效果更佳,带来卓越性能;2)我们训练的模型超越了大规模指令调优Video-LLMs的直接推理,在多样视频推理任务中生成长且上下文一致的CoTs;3)仅一次迭代的模型便超越了强大的LMMs(如Kimi-VL)和长推理模型(如Video-R1),凸显了其有效性和稳定性。
扩散变换器(DiTs)在视频生成中至关重要,但由于注意力机制的二次复杂度,存在显著的延迟问题。通过仅计算关键令牌,稀疏注意力降低了计算成本,提供了一种有前景的加速途径。然而,我们发现现有方法在相同计算预算下无法达到最优生成质量,原因有二:(1)关键令牌识别不准确:当前方法基于位置而非语义对令牌进行聚类,导致聚合表示不精确。(2)计算浪费过多:关键令牌分散在非关键令牌中,导致GPU在处理连续令牌时计算效率低下。本文提出SVG2,一种无需训练的框架,旨在最大化识别精度并最小化计算浪费,实现生成质量与效率之间的帕累托前沿权衡。SVG2的核心是语义感知排列,利用k-means基于语义相似性对令牌进行聚类和重排序。该方法既确保了精确的聚类表示,提高了识别精度,又实现了关键令牌的密集布局,无需填充即可高效计算。此外,SVG2集成了top-p动态预算控制和定制内核实现,在HunyuanVideo和Wan 2.1上分别实现了高达2.30倍和1.89倍的加速,同时保持了峰值信噪比(PSNR)分别达到30和26。
本文介绍了UI-Genie,一种自我优化的框架,旨在解决图形用户界面(GUI)代理中的两大关键挑战:轨迹结果验证困难以及高质量训练数据难以规模化。针对这些挑战,UI-Genie分别通过奖励模型和自我优化流程予以应对。其中,奖励模型UI-Genie-RM采用图像与文本交织的架构,高效处理历史上下文信息,并统一了动作级别与任务级别的奖励机制。为支持UI-Genie-RM的训练,我们开发了精心设计的数据生成策略,包括基于规则的验证、受控轨迹破坏及困难负样本挖掘。针对第二个挑战,自我优化流程通过奖励引导的探索与动态环境中的结果验证,逐步扩展可解决的复杂GUI任务,同时提升代理与奖励模型的能力。为模型训练,我们生成了UI-Genie-RM-517k和UI-Genie-Agent-16k数据集,首次为GUI代理建立了专门的奖励数据集,并展示了无需人工标注即可生成高质量合成轨迹的能力。实验结果表明,UI-Genie在历经三代数据模型自我优化后,在多个GUI代理基准测试中均达到了最先进的性能水平。我们开源了完整的框架实现及生成的数据集,以促进进一步研究,详见https://github.com/Euphoria16/UI-Genie。
多模态大语言模型(MLLMs)在静态图像的光学字符识别(OCR)任务中已取得显著精度。然而,在视频OCR领域,其效能因运动模糊、时间变化及视频内容固有的视觉特效等因素而大幅降低。为更明确地指导实用型MLLMs的训练,我们推出了MME-VideoOCR基准测试,该测试囊括了视频OCR应用的广泛场景。MME-VideoOCR包含10个任务类别,共计25项具体任务,覆盖44种多样化情境。这些任务不仅限于文本识别,还深入涉及视频中文本内容的理解与推理。基准测试由1,464段分辨率、宽高比及时长各异的视频组成,并配有2,000对精心挑选、人工标注的问答对。我们对18个前沿MLLMs在MME-VideoOCR上的表现进行了评估,结果显示,即便是表现最佳的模型(Gemini-2.5 Pro),其准确率也仅为73.7%。细粒度分析表明,现有MLLMs在处理相关文本集中于单一或少数帧的任务时表现强劲,但在需要全面视频理解的任务上能力有限,特别是在要求时空推理、跨帧信息整合或抵御语言先验偏见的场景中尤为明显。我们的发现还强调了高分辨率视觉输入和充足时间覆盖对于动态视频场景中可靠OCR的重要性。
低秩适应(LoRA)是一种广受欢迎的生成模型参数高效微调(PEFT)方法,因其简洁性和有效性而备受推崇。尽管近期有所改进,LoRA仍面临一个根本性局限:当瓶颈扩大时易出现过拟合。它在秩为32至64时表现最佳,但在更高秩时准确率停滞不前或下降,仍未能达到全量微调(FFT)的性能水平。我们发现问题根源在于LoRA的结构性瓶颈,它向无关的输入通道引入了梯度纠缠,扭曲了梯度传播。为解决这一问题,我们提出了一种新颖的结构——粒度低秩适应(GraLoRA),它将权重矩阵划分为子块,每个子块配备独立的低秩适配器。在计算或存储成本几乎不变的情况下,GraLoRA克服了LoRA的局限,有效提升了表示能力,更接近FFT的行为。在代码生成和常识推理基准测试上的实验表明,GraLoRA持续超越LoRA及其他基线方法,在HumanEval+上的Pass@1指标上实现了高达+8.5%的绝对提升。这些改进在不同模型规模和秩设置下均保持一致,使GraLoRA成为PEFT的可扩展且稳健的解决方案。代码、数据及脚本已发布于https://github.com/SqueezeBits/GraLoRA.git。
企业客户正日益采用大型语言模型(LLMs)来完成关键沟通任务,如撰写电子邮件、构思销售提案以及编写日常消息。要在不同地区部署此类模型,要求它们能够理解多元的文化与语言背景,并生成安全且得体的回应。对于企业应用而言,有效识别并处理不安全或冒犯性语言,以降低声誉风险、维护信任并确保合规性,显得尤为重要。为此,我们推出了SweEval基准测试,该测试通过模拟现实场景,涵盖语气(积极或消极)和语境(正式或非正式)的变化,明确指示模型在完成任务时包含特定粗俗词汇。此基准旨在评估LLMs在面对此类不当指令时是遵循还是抵制,并检验其与伦理框架、文化细微差别及语言理解能力的契合度。为了推动构建符合伦理的AI系统研究,适用于企业及其他领域,我们公开了数据集与代码:https://github.com/amitbcp/multilingual_profanity。
提升大语言模型(LLMs)的代码推理能力,根本上受限于高难度数据集的稀缺,尤其是那些包含可验证输入输出测试用例的数据集,这对于大规模严格验证解决方案至关重要。我们推出了rStar-Coder,通过构建一个包含418K竞赛级代码问题、580K长推理解决方案及丰富难度测试用例的大规模验证数据集,显著提升了LLM的代码推理能力。这一成就得益于三大核心贡献:(1)我们精选竞赛编程代码问题与标准解答,合成新的可解问题;(2)引入了一个可靠的输入输出测试用例合成流程,将生成过程分解为三步输入生成方法及用于有效输出标注的相互验证机制;(3)我们为问题补充了高质量、经测试用例验证的长推理解决方案。在Qwen模型(1.5B-14B)上进行的多项代码推理基准测试中,rStar-Coder数据集展现了其优越性,以更小的模型规模实现了与前沿推理LLM相媲美的领先性能。在LiveCodeBench上,rStar-Coder将Qwen2.5-7B的得分从17.4%提升至惊人的57.3%,Qwen2.5-14B从23.3%提升至62.5%,超越了o3-mini(低)3.1%。在更具挑战性的美国计算机奥林匹克竞赛中,我们的7B模型实现了16.15%的平均pass@1准确率,优于前沿级别的QWQ-32B。代码及数据集将在https://github.com/microsoft/rStar 发布。
近期在CoT推理和RL后训练方面的进展被报道能够增强多模态大语言模型(MLLMs)的视频推理能力。这一进步自然引发了一个问题:这些模型能否以与人类专家相当的方式执行复杂的视频推理?然而,现有的视频基准主要评估视觉感知和基础能力,其问题可以通过明确的提示或孤立的视觉线索来回答。这样的基准并未完全捕捉现实世界推理的复杂性,在现实中,人类必须主动搜寻、整合并分析多条线索才能得出结论。为解决这一问题,我们提出了Video-Holmes,一个受夏洛克·福尔摩斯推理过程启发的基准,旨在评估MLLMs的复杂视频推理能力。Video-Holmes包含从270部手动标注的悬疑短片中提取的1,837个问题,涵盖七个精心设计的任务。每个任务通过首先识别影片中的关键事件和因果关系,然后设计需要模型主动定位并连接散布在不同视频片段中的多个相关视觉线索的问题来构建。我们对最先进的MLLMs进行的全面评估显示,尽管这些模型在视觉感知方面普遍表现出色,但在信息整合上遇到显著困难,且常常遗漏关键线索。例如,表现最佳的模型Gemini-2.5-Pro的准确率仅为45%,大多数模型的得分低于40%。我们希望Video-Holmes能作为多模态推理的“福尔摩斯测试”,激励模型更接近人类的方式进行推理,并强调该领域持续存在的挑战。该基准已发布于https://github.com/TencentARC/Video-Holmes。
近期,采用DeepSeek-R1-Zero式强化学习(RL)基于可验证奖励训练大型语言模型(LLMs)的范式转变,在代码和数学推理领域取得了显著进展。然而,该方法仅限于那些能够通过规则进行答案验证的任务,难以自然扩展到化学、医疗、工程、法律、生物学、商业及经济学等现实世界领域。当前的实际解决方案是额外使用一个LLM作为基于模型的验证器,但这带来了诸如依赖强大的验证器LLM、易受奖励欺骗影响以及在训练过程中需将验证器模型保留在内存中的实际负担等问题。为解决这一问题并将DeepSeek-R1-Zero式训练推广至一般推理领域,我们提出了一种无需验证器的方法(VeriFree),该方法绕过答案验证,转而利用RL直接最大化生成参考答案的概率。我们将VeriFree与基于验证器的方法进行了比较,结果表明,除了显著的实践优势和降低的计算需求外,VeriFree在MMLU-Pro、GPQA、SuperGPQA及数学相关基准测试的广泛评估中,不仅匹配甚至超越了基于验证器的方法。此外,我们从多个角度深入探讨了该方法:作为策略与隐式验证器在统一模型中优雅集成的训练方式,以及作为一种变分优化策略。代码可在https://github.com/sail-sg/VeriFree获取。
人类社交互动依赖于推断他人未言明的意图、情感和信念的能力——这一认知技能植根于心理学的“心智理论”(Theory of Mind, ToM)概念。尽管大型语言模型(LLMs)在语义理解任务上表现出色,但它们难以应对人类交流中固有的模糊性和上下文细微差别。为弥合这一差距,我们引入了MetaMind,一个受元认知心理学理论启发的多智能体框架,旨在模拟类人的社会推理能力。MetaMind将社会理解分解为三个协作阶段:(1) 心智理论智能体生成用户心理状态(如意图、情绪)的假设,(2) 领域智能体利用文化规范和伦理约束精炼这些假设,(3) 响应智能体生成上下文适宜的回应,同时验证与推断意图的一致性。我们的框架在三个具有挑战性的基准测试中实现了最先进的性能,在现实世界社交场景中提升了35.7%,在心智理论推理上提升了6.2%。尤为重要的是,它首次使LLMs在关键心智理论任务上达到了人类水平的表现。消融研究证实了所有组件的必要性,展示了框架在平衡上下文合理性、社交适宜性和用户适应性方面的能力。这项工作推动了AI系统向类人社交智能迈进,在共情对话和文化敏感互动中具有广泛应用。代码可在https://github.com/XMZhangAI/MetaMind获取。
视频大语言模型(video LLMs)在视频理解方面表现出色,但由于冗余的视频标记,面临显著的计算效率低下问题。现有的标记剪枝方法提供了解决方案。然而,在大语言模型内部操作的剪枝方法(如FastV)在浅层会带来固有的计算开销。相比之下,在大语言模型之前进行标记剪枝的方法(外部LLM剪枝)主要处理单个帧内或有限时间窗口内的空间冗余,忽视了跨较长视频序列的关键全局时间动态和相关性。这导致了次优的时空缩减,未能充分利用视频的可压缩性。至关重要的是,结合这些策略的协同潜力和相互影响仍未被探索。为了进一步减少冗余,我们引入了HoliTom,一种新颖的无训练整体标记合并框架。HoliTom通过全局冗余感知的时间分割进行外部LLM剪枝,随后进行时空合并,将视觉标记减少超过90%,显著减轻了LLM的计算负担。作为补充,我们引入了一种基于内部LLM标记相似性的稳健合并方法,旨在实现卓越性能并与外部LLM剪枝兼容。评估结果表明,我们的方法在LLaVA-OneVision-7B上实现了有前景的效率-性能权衡,将计算成本降至FLOPs的6.9%,同时保持了99.1%的原始性能。此外,我们实现了首次标记时间(TTFT)2.28倍的减少和解码吞吐量1.32倍的加速,凸显了我们集成剪枝方法在高效视频LLM推理中的实际优势。
通过交互式运动控制为图像赋予动态效果,在图像到视频(I2V)生成领域日益受到关注。现有方法通常依赖大范围高斯核扩展运动轨迹作为条件,而无需明确定义运动区域,这导致了粗糙的运动控制,并难以区分物体与相机的运动。为解决这些问题,我们提出了MotionPro,一种精确的运动控制器,创新性地利用区域轨迹和运动掩码分别调控细粒度运动合成及识别目标运动类别(即物体或相机运动)。技术上,MotionPro首先通过跟踪模型估计每段训练视频的光流图,随后采样区域轨迹以模拟推理场景。与通过大高斯核扩展光流不同,我们的区域轨迹方法直接利用局部区域内的轨迹,实现了更精确的控制,从而有效刻画了细粒度运动。同时,从预测的光流图中提取运动掩码,以捕捉运动区域的整体动态。为追求自然的运动控制,MotionPro进一步通过特征调制结合区域轨迹和运动掩码,增强了视频去噪效果。尤为值得一提的是,我们精心构建了一个包含1.1K用户标注的图像-轨迹对的基准测试集MC-Bench,用于评估细粒度及物体级别的I2V运动控制。在WebVid-10M和MC-Bench上的大量实验验证了MotionPro的有效性。更多结果请访问我们的项目页面:https://zhw-zhang.github.io/MotionPro-page/。
在提升大型语言模型(LLMs)处理复杂任务的能力及实现可解释决策,尤其是在临床应用中,有效的推理机制至关重要。然而,若缺乏对从闭源模型(如GPT-4o)提炼出的昂贵链式思维(CoT)数据进行监督微调(SFT),这一目标仍具挑战性。本研究提出了AlphaMed,首个证明仅通过强化学习(RL)结合公开多选题问答数据集上的极简规则奖励,无需依赖SFT或CoT数据提炼,即可涌现推理能力的医疗LLM。AlphaMed在六项医疗问答基准测试中取得了领先成绩,超越了采用传统SFT+RL流程训练的模型。在如MedXpert等具有挑战性的基准上,AlphaMed甚至超越了更大规模或闭源模型,如DeepSeek-V3-671B和Claude-3.5-Sonnet。为探究成功背后的因素,我们围绕三个问题展开了全面的数据导向分析:(i) 极简规则RL能否在没有CoT监督的情况下激励推理?(ii) 数据集的数量与多样性如何影响推理?(iii) 问题难度如何塑造推理的涌现与泛化?我们的研究结果表明,数据集的信息量是推理性能的关键驱动力,而在富含信息的多选题问答数据上实施极简RL,能有效诱导推理而无需CoT监督。同时,我们观察到不同基准间的表现差异,凸显了当前评估的局限性及对更具挑战性、推理导向的医疗问答基准的需求。
多语言对齐是一种有效且具代表性的范式,旨在增强大语言模型(LLMs)的多语言能力,通过将高资源语言的能力迁移至低资源语言。同时,针对语言特异性神经元的研究揭示,在处理不同语言时,LLMs中存在选择性激活的语言特异性神经元。这为在更具体的多语言场景下分析和理解LLMs的机制提供了新视角。在本研究中,我们提出了一种新的细粒度神经元识别算法,该算法能够检测语言神经元(包括语言特异性神经元和语言相关神经元)以及语言无关神经元。进一步地,基于不同类型神经元的分布特征,我们将LLMs在多语言推理中的内部过程划分为四个部分:(1)多语言理解,(2)共享语义空间推理,(3)多语言输出空间转换,以及(4)词汇空间输出。此外,我们系统性地分析了模型在对齐前后不同类型神经元的变化,并探讨了“自发多语言对齐”现象。总体而言,我们的工作基于不同类型神经元进行了全面研究,为更好地理解LLMs的多语言对齐及多语言能力提供了实证结果和宝贵见解。
可控性、时间连贯性与细节合成仍是视频生成领域最为关键的挑战。本文聚焦于一种常用却未充分探索的影视技法——画面出入(Frame In and Frame Out)。具体而言,从图像到视频的生成出发,用户能够依据指定的运动轨迹,控制图像中的物体自然离开场景,或引入全新的身份参考使其进入场景。为支持这一任务,我们引入了一个半自动构建的新数据集、一套针对此场景的全面评估协议,以及一种高效的身份保持且运动可控的视频扩散Transformer架构。评估结果表明,我们提出的方法显著超越了现有基线模型。
近期生成模型的进展已实现了高保真度的文本到图像生成。然而,开源图像编辑模型仍落后于其专有版本,主要原因是高质量数据的匮乏和基准测试的不足。为突破这些限制,我们推出了ImgEdit,一个大规模、高质量的图像编辑数据集,包含120万对精心筛选的编辑对,这些编辑对不仅涵盖了新颖且复杂的单轮编辑,还包括具有挑战性的多轮任务。为确保数据质量,我们采用了一个多阶段处理流程,整合了尖端的视觉语言模型、检测模型、分割模型,以及针对特定任务的图像修复程序和严格的后处理步骤。ImgEdit在任务新颖性和数据质量上均超越了现有数据集。利用ImgEdit,我们训练了ImgEdit-E1,这是一个利用视觉语言模型处理参考图像和编辑提示的编辑模型,它在多项任务上超越了现有的开源模型,彰显了ImgEdit数据集及模型设计的价值。为了进行全面评估,我们引入了ImgEdit-Bench,这是一个旨在从指令遵循、编辑质量和细节保留三个方面评估图像编辑性能的基准测试。它包括基础测试集、挑战性的单轮测试集和专门的多轮测试集。我们对开源与专有模型以及ImgEdit-E1进行了评估,提供了对当前图像编辑模型行为的深入分析和可操作的见解。所有源数据已公开于https://github.com/PKU-YuanGroup/ImgEdit。
在许多实际应用中,部署的模型会遇到与训练数据不同的输入。分布外检测旨在识别输入是否来自未见过的分布,而开放世界识别则标记此类输入,以确保系统在面对不断涌现的未知类别时保持鲁棒性,且无需重新训练。基础和视觉语言模型在大型多样化数据集上进行预训练,期望能在包括医学影像在内的多个领域实现广泛泛化。然而,在仅包含少数常见异常类型的测试集上对这些模型进行基准测试,会悄然将评估退化为封闭集问题,掩盖了在临床使用中遇到的罕见或真正新颖情况下的失败。 因此,我们提出了NOVA,这是一个极具挑战性的、仅用于评估的现实生活基准,包含900个模拟脑部MRI扫描,涵盖281种罕见病理和异构采集协议。每个病例都包含丰富的临床叙述和双盲专家标注的边界框。这些共同支持对异常定位、视觉描述和诊断推理的联合评估。由于NOVA从未用于训练,它作为分布外泛化的极端压力测试:模型必须在样本外观和语义空间上跨越分布差距。使用领先的视觉语言模型(GPT-4o、Gemini 2.0 Flash和Qwen2.5-VL-72B)的基线结果显示,在所有任务中性能均大幅下降,确立了NOVA作为推动模型检测、定位和推理真正未知异常的严格测试平台。
本文提出DetailFlow,一种从粗到细的一维自回归(AR)图像生成方法,通过新颖的细节预测策略对图像进行建模。通过利用逐步降质的图像监督学习分辨率感知的token序列,DetailFlow使生成过程能够从全局结构出发,逐步细化细节。这种从粗到细的一维token序列与自回归推理机制高度契合,为AR模型生成复杂视觉内容提供了一种更为自然且高效的方式。我们紧凑的一维AR模型在显著减少token数量的情况下实现了高质量的图像合成,相较于VAR/VQGAN等先前方法。此外,我们提出了一种带自校正的并行推理机制,将生成速度提升约8倍,同时减少了教师强制监督中固有的累积采样误差。在ImageNet 256x256基准测试中,我们的方法仅使用128个token便取得了2.96的gFID,优于需要680个token的VAR(3.3 FID)和FlexVAR(3.05 FID)。得益于显著减少的token数量和并行推理机制,我们的方法在推理速度上比VAR和FlexVAR快了近2倍。大量实验结果表明,DetailFlow在生成质量和效率上均优于现有的最先进方法。
我们推出了FinTagging,这是首个全面、表格感知的XBRL基准测试,旨在评估大型语言模型(LLMs)在基于XBRL的财务报告场景下的结构化信息提取与语义对齐能力。与以往将XBRL标记简化为扁平多类分类且仅关注叙述性文本的基准不同,FinTagging将XBRL标记问题分解为两个子任务:FinNI用于财务实体抽取,FinCL用于基于分类法的概念对齐。该基准要求模型在非结构化文本和结构化表格中共同提取事实,并将其与包含10,000+条目的美国通用会计准则(US-GAAP)分类法全面对齐,从而实现真实、细粒度的评估。我们在零样本设置下评估了多种LLMs,系统分析了它们在两个子任务及整体标记准确率上的表现。结果表明,尽管LLMs在信息提取方面展现出强大的泛化能力,但在细粒度概念对齐上存在困难,尤其是在区分紧密相关的分类法条目时。这些发现揭示了现有LLMs在完全自动化XBRL标记方面的局限性,并强调了提升语义推理和模式感知建模能力以满足准确财务披露需求的必要性。代码可在我们的GitHub仓库获取,数据则存放于Hugging Face仓库。
主动视觉,亦称主动感知,是指通过主动选择观察位置与方式以收集任务相关信息的过程。它是人类及高级具身智能体实现高效感知与决策的关键组成部分。近期,多模态大语言模型(MLLMs)作为机器人系统中的核心规划与决策模块,受到了广泛关注。然而,尽管主动感知在具身智能中至关重要,关于如何使MLLMs具备或学习主动感知能力的研究却鲜有涉猎。本文首先系统性地定义了基于MLLM的主动感知任务,并指出近期提出的GPT-o3模型的放大搜索策略可视为主动感知的一个特例,但其仍存在搜索效率低及区域选择不精准的问题。为解决这些问题,我们提出了ACTIVE-O3,一个完全基于强化学习、构建于GRPO之上的训练框架,旨在赋予MLLMs主动感知能力。我们进一步建立了一套全面的基准测试集,用于评估ACTIVE-O3在通用开放世界任务(如小物体与密集物体定位)及特定领域场景(包括遥感中的小物体检测、自动驾驶以及细粒度交互式分割)中的表现。此外,ACTIVE-O3在V*基准测试上也展现了强大的零样本推理能力,且无需依赖任何显式推理数据。我们期望本工作能提供一个简洁的代码库与评估协议,以促进未来在MLLMs主动感知领域的研究。
对语言模型生成过程的精确控制对于确保其安全性和可靠性至关重要。尽管提示工程和引导技术常被用于干预模型行为,但模型中庞大的参数数量往往导致内部表示高度交织。这种相互依赖性可能限制控制精度,有时还会引发意外副作用。近期研究探索了利用稀疏自编码器(SAE)在高维空间中解耦知识以实现引导,然而,由于定位原子知识组件这一非平凡问题,这些应用仅限于简单任务。本文提出了一种新方法——引导目标原子(STA),通过隔离和操纵解耦的知识组件来增强安全性。全面的实验验证了我们方法的有效性。进一步分析表明,引导展现出卓越的鲁棒性和灵活性,尤其在对抗性场景中表现突出。我们还将这一引导策略应用于大型推理模型,证实了其在精确推理控制中的有效性。
视觉-语言模型(VLMs)在理解和推理视觉内容方面展现了卓越的能力,但在需要跨视角理解和空间推理的任务中仍存在显著挑战。我们识别出一个关键局限:当前VLMs主要擅长以自我为中心的空间推理(从摄像机的视角出发),但在需要采用其他实体的空间参照系时,难以泛化到以他者为中心的视角。为此,我们引入了ViewSpatial-Bench,这是首个专为多视角空间定位识别评估设计的综合基准,涵盖五种不同的任务类型,并辅以一个自动化的3D标注流程,生成精确的方向标签。在ViewSpatial-Bench上对多种VLMs进行全面评估后,发现了一个显著的性能差距:模型在摄像机视角任务上表现尚可,但在从人类视角进行推理时准确性下降。通过在多视角空间数据集上对VLMs进行微调,我们在各项任务中实现了46.24%的整体性能提升,凸显了该方法的有效性。我们的工作为具身AI系统的空间智能确立了一个重要基准,并提供了实证证据,表明建模3D空间关系能够增强VLMs相应的空间理解能力。
近期研究表明,通过将强化学习(RL)应用于数学和编程等领域的问答(QA)任务,大型语言模型(LLMs)的推理能力可以得到提升。在较长的上下文环境中,LLMs可能学会执行搜索,这一点从DeepSeek R1中观察到的自我修正行为可见一斑。然而,这种搜索行为往往不够精确且缺乏信心,导致冗长冗余的响应,并凸显了直觉与验证方面的不足。受心理学中双过程理论的启发,我们对QA任务进行了简单修改,引入了四个阶段:快速思考阶段,要求LLM在严格的token预算内作答;验证阶段,模型评估其初始回答;慢速思考阶段,模型以更审慎的态度优化初始回答;以及总结阶段,将前一阶段的优化提炼为精确步骤。我们提出的任务使Qwen2.5-1.5B的平均准确率从24.9%提升至27.9%,DeepSeek-R1-Qwen-1.5B的准确率从45.9%提升至49.8%。值得注意的是,对于Qwen2.5-1.5B,仅快速思考模式在使用少于1000个token的情况下就达到了26.8%的准确率,显示出显著的推理效率提升。这些发现表明,直觉与深思熟虑的推理是两种截然不同且互补的系统,它们都能从针对性训练中获益。
可缩放矢量图形(SVG)作为一种强大的格式,能够将视觉设计以可解释的代码形式呈现。近期,视觉-语言模型(VLMs)的进展通过将问题框架化为代码生成任务,并利用大规模预训练,实现了高质量的SVG生成。VLMs特别适合这一任务,因为它们既能捕捉全局语义,又能识别细粒度的视觉模式,同时在视觉、自然语言和代码领域之间传递知识。然而,现有的VLM方法往往难以生成忠实且高效的SVG,因为它们在训练过程中从未观察过渲染后的图像。尽管自回归SVG代码生成的可微分渲染技术尚未实现,但渲染输出仍可与原始输入进行比较,从而提供适用于强化学习(RL)的评估反馈。我们提出了RLRF(基于渲染反馈的强化学习),这是一种RL方法,通过利用渲染SVG输出的反馈,增强自回归VLMs中的SVG生成能力。给定输入图像,模型生成SVG序列,这些序列被渲染并与原始图像比较以计算奖励。这种视觉保真度反馈引导模型生成更准确、高效且语义连贯的SVG。RLRF显著优于监督微调,解决了常见的失败模式,实现了具有强大结构理解和泛化能力的精确、高质量SVG生成。
我们推出VisTA,一个全新的强化学习框架,它赋予视觉代理动态探索、选择并基于实证性能从多样化工具库中组合工具的能力。现有工具增强推理方法要么依赖无需训练的提示机制,要么需要大规模微调;两者均缺乏主动工具探索,且通常假设工具多样性有限,而微调方法还额外要求大量人工监督。相比之下,VisTA利用端到端强化学习,以任务结果为反馈信号,迭代优化复杂且针对特定查询的工具选择策略。通过群体相对策略优化(GRPO),我们的框架使代理能够自主发现有效的工具选择路径,无需显式推理监督。在ChartQA、Geometry3K和BlindTest基准测试上的实验表明,VisTA相较于无需训练的基线方法实现了显著的性能提升,尤其是在分布外样本上。这些成果凸显了VisTA在增强泛化能力、自适应利用多样化工具方面的优势,为构建灵活、经验驱动的视觉推理系统铺平了道路。
多模态大语言模型(MLLMs)仍易受可迁移对抗样本的影响。现有方法通常通过对齐对抗样本与目标样本的全局特征(如CLIP的[CLS]标记)来实现定向攻击,但往往忽视了嵌入在局部标记中的丰富信息。这导致对齐效果欠佳,迁移能力受限,尤其对于闭源模型。为解决这一局限,我们提出了一种基于特征最优对齐的定向可迁移对抗攻击方法,称为FOA-Attack,以提升对抗迁移能力。具体而言,在全局层面,我们引入基于余弦相似度的全局特征损失,以对齐对抗样本与目标样本的粗粒度特征。在局部层面,鉴于Transformer内部丰富的局部表示,我们利用聚类技术提取紧凑的局部模式,以缓解冗余的局部特征。随后,我们将对抗样本与目标样本间的局部特征对齐问题建模为最优传输(OT)问题,并提出局部聚类最优传输损失,以优化细粒度特征对齐。此外,我们提出了一种动态集成模型权重策略,在对抗样本生成过程中自适应地平衡多个模型的影响,从而进一步提升迁移能力。跨多种模型的广泛实验验证了所提方法的优越性,尤其在迁移至闭源MLLMs时,超越了现有最先进方法。代码已发布于https://github.com/jiaxiaojunQAQ/FOA-Attack。
我们推出SeePhys,这是一个面向大语言模型(LLM)推理的大规模多模态基准测试,其问题涵盖从中学到博士资格考试级别的物理知识。该基准覆盖了物理学领域的7个基础方向,整合了21类高度异质的图表。与以往研究中视觉元素主要起辅助作用不同,我们的基准测试中视觉关键问题占比高达75%,这些问题必须通过视觉信息提取才能正确解答。经过广泛评估,我们发现即便是最先进的视觉推理模型(如Gemini-2.5-pro和o4-mini)在我们的基准测试上准确率也未能超过60%。这些结果揭示了当前大语言模型在视觉理解能力上的根本性挑战,特别是在:(i)建立图表解读与物理推理之间的严谨关联,以及(ii)克服其对文本线索作为认知捷径的持续依赖方面。
自动评估多模态生成面临重大挑战,因为自动化指标往往难以与人类评估可靠对齐,尤其是在涉及多种模态的复杂任务中。为此,我们提出了MMMG,一个全面且与人类评估对齐的多模态生成基准,涵盖4种模态组合(图像、音频、图文交错、文音交错),重点关注对生成模型构成显著挑战的任务,同时通过模型与程序的结合实现可靠的自动评估。MMMG包含49项任务(其中29项为新开发),每项任务均配有精心设计的评估流程,以及937条指令,系统性地评估多模态生成模型在推理、可控性及其他关键能力上的表现。大量验证表明,MMMG与人类评估高度一致,平均一致率达94.3%。对24个多模态生成模型的基准测试结果显示,尽管当前最先进的GPT Image模型在图像生成上达到了78.3%的准确率,但在多模态推理和交错生成方面仍显不足。此外,结果表明音频生成领域存在显著的提升空间,为未来研究指明了重要方向。
大型语言模型已展现出卓越的推理能力,但其固有的知识储备限制了这一潜力。检索增强推理通过允许大模型查询外部资源来缓解这一局限,然而现有方法常检索到无关或噪声信息,阻碍了准确推理。本文提出AutoRefine,一种采用新型“思考中搜索与精炼”范式的强化学习后训练框架。AutoRefine在连续搜索调用之间引入了明确的知识精炼步骤,使模型能在生成答案前迭代地过滤、提炼和组织证据。此外,我们通过群体相对策略优化,结合了定制化的检索特定奖励与答案正确性奖励。在单跳和多跳问答基准测试上的实验表明,AutoRefine显著优于现有方法,尤其在复杂的多跳推理场景中表现突出。深入分析显示,AutoRefine能频繁发起更高质量的搜索,并有效综合证据。
通过强化学习(RL)训练的大型语言模型(LLMs)已展现出强大的推理能力和涌现的反思行为,如回溯与错误修正。然而,传统的马尔可夫强化学习将探索局限于训练阶段,以学习最优确定性策略,并仅通过当前状态依赖历史上下文。因此,尚不清楚反思推理是否会在马尔可夫强化学习训练期间自然涌现,或为何它们在测试时具有优势。为解决这一问题,我们将反思探索重新置于贝叶斯自适应强化学习框架中,该框架明确优化了在马尔可夫决策过程后验分布下的期望回报。这一贝叶斯公式通过信念更新,内在激励了奖励最大化的利用与信息收集的探索。我们提出的算法BARL指导LLM根据观察结果拼接和切换策略,为模型何时及如何进行反思探索提供了原则性指导。在合成任务和数学推理任务上的实证结果表明,BARL在测试时优于标准马尔可夫强化学习方法,以更高的探索效率实现了更优的令牌利用率。我们的代码已发布于https://github.com/shenao-zhang/BARL。
近期,大型语言模型(LLMs)的进展使得智能体能够自主执行复杂且开放性的任务。然而,许多现有框架严重依赖于手动预定义的工具和工作流程,这限制了它们的适应性、可扩展性及跨领域的泛化能力。在本研究中,我们推出了Alita——一款秉持“简约即终极复杂”原则设计的通用智能体,通过最小化预定义与最大化自我进化,实现了可扩展的智能推理。在最小化预定义方面,Alita仅配备了一个直接解决问题的组件,相较于以往依赖精心手工打造工具和工作流程的方法,其设计更为简洁明了。这种纯净的设计增强了其应对复杂问题的泛化潜力,不受工具限制。在最大化自我进化方面,我们通过提供一套通用组件,使Alita能够自主构建、优化并复用外部能力,通过从开源资源生成任务相关的模型上下文协议(MCPs),从而促进可扩展的智能推理。值得注意的是,Alita在GAIA基准验证数据集上实现了75.15%的pass@1和87.27%的pass@3准确率,在通用智能体中名列前茅;在Mathvista和PathVQA上分别达到了74.00%和52.00%的pass@1准确率,超越了众多复杂度更高的智能体系统。更多详情将持续更新于https://github.com/CharlesQ9/Alita。
随着测试时扩展成为大型语言模型(LLMs)发展的关键研究前沿,当前及先进的训练后方法日益聚焦于延长长链思维(CoT)响应的生成长度,以提升推理能力,使之接近DeepSeek R1的水平。然而,最新研究揭示了顶尖推理模型中持续存在的过度思考现象,表现为长CoT响应中过多的冗余或重复思维模式。针对这一问题,本文提出了一种简单而有效的两阶段强化学习框架,名为ConciseR,旨在实现LLMs中的简洁推理。具体而言,第一阶段通过更多训练步骤,利用带有剪辑上限和动态采样组件的群体相对策略优化(GRPO++),激励模型的推理能力;第二阶段则通过较少训练步骤,采用长度感知的群体相对策略优化(L-GRPO),明确强制简洁性并提升效率。值得注意的是,ConciseR仅在样本的所有推演均正确后,遵循“先走再跑”的原则,对响应长度进行优化。大量实验结果表明,我们的ConciseR模型在生成更为简洁的CoT推理响应方面,超越了采用零RL范式的最新顶尖推理模型,在AIME 2024、MATH-500、AMC 2023、Minerva及奥林匹克竞赛基准测试中均表现出色。
理解透视是人类视觉感知的基础,然而多模态大语言模型(MLLMs)在多大程度上内化了透视几何仍不明确。我们推出了MMPerspective,这是首个专门设计用于系统评估MLLMs透视理解的基准,通过三个互补维度——透视感知、推理与鲁棒性——下的10项精心设计的任务来实现。该基准包含2,711个真实世界与合成图像实例,以及5,083个问答对,旨在探测关键能力,如消失点感知与计数、透视类型推理、三维空间中的线条关系理解、对透视保持变换的不变性等。通过对43个顶尖MLLMs的全面评估,我们揭示了显著的局限性:尽管模型在表面层次的感知任务上表现出色,但在组合推理及受扰动时保持空间一致性方面却面临挑战。我们的分析进一步揭示了模型架构、规模与透视能力之间的有趣关联,既指出了鲁棒性瓶颈,也展示了链式思维提示的益处。MMPerspective为诊断和推进视觉语言系统中的空间理解建立了一个宝贵的测试平台。资源获取地址:https://yunlong10.github.io/MMPerspective/
视觉语言模型(VLMs)在编码和数学基准测试中取得了超越人类的优异表现,然而它们在执行人类天生擅长的任务——如感知、空间导航和记忆管理——方面的能力仍未被充分研究。真实的电子游戏设计旨在利用人类固有的归纳偏倚,使其易于学习和掌握,因此成为评估VLMs这些能力的理想测试平台。为此,我们推出了VideoGameBench,一个包含10款1990年代流行电子游戏的基准测试,VLMs需实时直接与这些游戏互动。VideoGameBench挑战模型仅凭原始视觉输入及对目标和控件的高层次描述来完成整个游戏,这与依赖游戏特定框架和辅助信息的现有设置形成显著区别。我们保留了三款游戏作为秘密测试,以鼓励模型开发出能泛化到未知环境的解决方案。实验表明,前沿视觉语言模型难以推进到每款游戏的初期阶段。我们发现推理延迟是前沿模型在实时环境中的主要限制因素;因此,我们引入了VideoGameBench Lite,在此设置中,游戏会在等待语言模型下一步动作时暂停。表现最佳的模型Gemini 2.5 Pro仅完成了VideoGameBench的0.48%和VideoGameBench Lite的1.6%。我们期望通过将上述人类技能形式化纳入此基准测试,能够推动这些研究方向的进展。
随着推理与信息检索后处理技术的飞速发展,大型语言模型(LLMs)能够整合大量检索到的知识来解决复杂任务。然而,LLMs有限的上下文窗口阻碍了外部知识输入的规模扩展,特别是在需要大量外部知识的任务中,这一限制尤为明显,阻碍了性能的进一步提升。现有的上下文窗口扩展方法不可避免地会导致信息丢失。基于LLM的多智能体方法作为一种新范式应运而生,它以分布式方式处理海量输入,在此过程中,我们识别出现有知识同步与推理流程中的两大核心瓶颈。本研究中,我们开发了一个多智能体框架——ExtAgents,旨在突破这些瓶颈,在不依赖长上下文训练的情况下,实现推理时知识整合的更好扩展性。通过我们增强的多跳问答测试集$boldsymbol{inftyBench+}$以及其他包括长篇调查生成在内的公开测试集的评估,ExtAgents在同等外部知识输入量下,无论是否超出上下文窗口,均显著超越了现有非训练方法的性能表现。此外,得益于高度并行化,该方法保持了高效性。未来在增加外部知识输入时对LLM智能体协调机制的深入研究,有望为实际应用带来更大益处。
帧间插值旨在根据给定的起始帧和结束帧合成中间视频序列。当前最先进的方法主要通过对大规模预训练的图像到视频扩散模型(I2V-DMs)进行扩展,通过直接微调或省略训练来引入结束帧约束。我们发现这些设计存在一个关键局限:它们引入结束帧约束时通常采用与最初施加起始帧(单张图像)约束相同的机制。然而,由于原始I2V-DMs已预先充分训练以适应起始帧条件,若以相同机制引入结束帧约束且训练量大幅减少(甚至为零),很可能无法使结束帧对中间内容产生与起始帧同等强度的影响。这种两帧对中间内容控制力的不对称性,可能导致生成帧中出现运动不一致或外观崩塌的问题。为实现起始帧与结束帧的对称约束,我们提出了一种名为Sci-Fi的新框架,该框架在较小训练规模下应用更强的约束注入。具体而言,它沿用原有方式处理起始帧约束,同时通过改进机制引入结束帧约束。新机制基于一个精心设计的轻量级模块——EF-Net,该模块仅编码结束帧并将其扩展为时间自适应的逐帧特征,注入到I2V-DM中。这使得结束帧约束与起始帧约束同样强大,使我们的Sci-Fi能够在各种场景中生成更加和谐的过渡效果。大量实验证明了Sci-Fi相较于其他基线方法的优越性。
基于扩散Transformer(DiT)的视频扩散模型能够大规模生成高质量视频,但在处理长视频时面临极高的处理延迟和内存开销。为解决这一问题,我们提出了一种新颖的分布式推理策略,称为DualParal。其核心思想在于,不再依赖单一GPU生成完整视频,而是将时间帧与模型层并行化分配至多个GPU。然而,这种划分的简单实现存在一个关键限制:由于扩散模型要求各帧间的噪声水平同步,直接并行化会导致原有的并行性被串行化。为此,我们采用了一种分块去噪方案,即通过逐步降低噪声水平的方式处理一系列帧块。每个GPU负责特定帧块和层子集,同时将前序结果传递至下一个GPU,从而实现异步计算与通信。为进一步优化性能,我们引入了两项关键改进。首先,在每个GPU上实现特征缓存,用于存储并复用前一帧块的特征作为上下文,最大限度地减少GPU间通信及冗余计算。其次,采用协调的噪声初始化策略,通过在各GPU间共享初始噪声模式,确保全局时间动态的一致性,且无需额外资源开销。这些措施共同实现了快速、无伪影且无限长度的视频生成。应用于最新的扩散Transformer视频生成器,我们的方法在8块RTX 4090 GPU上高效生成了1,025帧视频,延迟降低至6.54倍,内存成本减少1.48倍。
后训练压缩技术旨在降低大型语言模型(LLMs)的计算与内存开销,从而实现资源高效部署。然而,现有的压缩基准测试仅聚焦于语言建模(如困惑度)和自然语言理解任务(如GLUE准确率),忽视了模型在代理能力方面的表现——包括工作流生成、工具使用/函数调用、长上下文理解及实际应用。为此,我们推出了首个全面评估压缩对LLMs代理能力影响的基准测试——代理压缩基准(ACBench)。ACBench涵盖:(1) 四大能力维度下的12项任务(例如,工作流生成的WorfBench、长上下文检索的Needle-in-Haystack),(2) 量化(GPTQ、AWQ)与剪枝(Wanda、SparseGPT)技术,以及(3) 15个模型,从小型(Gemma-2B)、标准(Qwen2.5 7B-32B)到蒸馏推理LLMs(DeepSeek-R1-Distill)。实验揭示了压缩的权衡:4位量化虽能保持工作流生成与工具使用能力(仅下降1%-3%),却使实际应用准确率降低10%-15%。我们引入ERank、Top-k排序相关性与能量指标以系统化分析。ACBench为优化代理场景下的LLM压缩提供了可操作的洞见。代码已发布于https://github.com/pprp/ACBench。
多模态大语言模型(MLLMs)的最新进展在整合文本与图像等多样化模态方面展现出令人瞩目的成果。然而,MLLMs深受模态偏差影响,往往过度依赖语言而未能充分利用视觉输入等其他模态。本立场论文主张,MLLMs深受模态偏差的深刻影响。首先,我们诊断了当前模态偏差的现状,揭示了其在各类任务中的具体表现。其次,我们提出了一套针对MLLMs模态偏差的系统研究路线图。再次,我们识别了MLLMs中模态偏差的关键因素,并为未来研究提供了可操作的建议以减轻其影响。为验证这些发现,我们进行了实验,展示了各因素的影响:1. 数据特性:语言数据紧凑且抽象,而视觉数据冗余且复杂,导致学习动态中固有的不平衡。2. 骨干能力失衡:预训练语言模型在MLLMs中的主导地位,导致对语言的过度依赖及对视觉信息的忽视。3. 训练目标:当前目标往往未能促进跨模态的均衡对齐,致使学习偏向语言捷径。这些发现强调了采用均衡的训练策略和模型架构以更好地整合MLLMs中多种模态的必要性。我们呼吁跨学科合作,共同应对这些挑战,推动MLLM研究的创新。本研究为MLLMs中的模态偏差提供了新视角,并为开发更稳健、更通用的多模态系统提供了洞见,助力向通用人工智能迈进。
生物医学研究人员日益依赖大规模结构化数据库进行复杂分析任务。然而,现有的文本到SQL系统往往难以将定性的科学问题映射为可执行的SQL查询,尤其是在需要隐含领域推理的情况下。我们推出了BiomedSQL,这是首个专门设计用于评估在真实世界生物医学知识库上进行文本到SQL生成时科学推理能力的基准。BiomedSQL包含68,000个基于统一BigQuery知识库的问题/SQL查询/答案三元组,该知识库整合了基因-疾病关联、来自组学数据的因果推断以及药物审批记录。每个问题都要求模型推断领域特定标准,如全基因组显著性阈值、效应方向性或试验阶段过滤,而非仅依赖语法翻译。我们评估了一系列开源和闭源的大型语言模型(LLMs),涵盖不同的提示策略和交互范式。结果显示显著的性能差距:GPT-o3-mini的执行准确率为59.0%,而我们定制的多步代理BMSQL达到62.6%,均远低于专家基线90.0%。BiomedSQL为推进能够通过结构化生物医学知识库的稳健推理支持科学发现的文本到SQL系统奠定了新基础。我们的数据集公开于https://huggingface.co/datasets/NIH-CARD/BiomedSQL,代码开源于https://github.com/NIH-CARD/biomedsql。
大型语言模型(LLMs)虽强大,却因静态知识易产生幻觉。检索增强生成(RAG)通过注入外部信息来缓解此问题,但现有方法往往成本高昂、泛化能力差,或忽视了模型的内部知识。本文提出R1-Searcher++,一种新颖框架,旨在训练LLMs自适应地结合内部与外部知识源。R1-Searcher++采用两阶段训练策略:首先是SFT冷启动阶段,用于初步格式学习;随后是强化学习(RL)阶段,实现动态知识获取。RL阶段利用结果监督鼓励探索,引入奖励机制促进内部知识利用,并整合记忆机制持续吸收检索信息,从而丰富模型的内部知识。通过结合内部知识与外部搜索引擎,模型不断提升其能力,实现高效的检索增强推理。实验表明,R1-Searcher++在RAG及推理方法上均优于以往,实现了高效检索。代码已发布于https://github.com/RUCAIBox/R1-Searcher-plus。
大型多模态模型(LMMs)在二维图像和视频领域的快速发展,推动了这些模型向理解三维场景的延伸,旨在实现类人的视觉空间智能。然而,要达到与人类能力相媲美的深度空间理解,在模型编码和数据获取方面仍面临重大挑战。现有方法往往依赖外部深度传感器进行几何捕捉,或利用现成算法预先构建三维地图,这限制了其可扩展性,特别是在普遍的单目视频输入和时效性要求高的应用中。为此,我们提出了VLM-3R,一个统一框架的视觉语言模型(VLMs),它融入了三维重建指令微调技术。VLM-3R通过几何编码器处理单目视频帧,生成隐含的三维标记以表征空间理解。借助我们的空间-视觉-视角融合技术及超过20万条精心策划的三维重建指令微调问答对,VLM-3R有效地将现实世界的空间情境与语言指令对齐,从而实现了单目三维空间辅助与具身推理。为了促进时间推理能力的评估,我们引入了视觉-空间-时间智能基准,包含超过13.86万条问答对,覆盖五个专注于空间关系演变的独特任务。大量实验证明,我们的模型VLM-3R不仅支持强大的视觉空间推理,还能理解三维上下文的时间变化,在准确性和可扩展性上均表现出色。
多模态信息检索(MIR)因数据源的异构性和跨模态对齐的复杂性而面临固有挑战。尽管先前研究已识别出特征空间中的模态鸿沟,但系统性地应对这些挑战的方法仍待探索。在本研究中,我们提出了UNITE,一个通用框架,通过两个关键但尚未充分探索的方面——数据筛选和模态感知的训练配置——来应对这些挑战。我们的工作首次全面分析了模态特定数据属性如何影响多样化场景下的下游任务性能。此外,我们提出了模态感知掩码对比学习(MAMCL),以缓解不同模态实例间的竞争关系。我们的框架在多个多模态检索基准测试中取得了最先进的成果,显著超越了现有方法。通过大量实验,我们证明了策略性的模态筛选和定制化的训练协议对于稳健的跨模态表示学习至关重要。这项工作不仅提升了MIR性能,还为未来多模态系统研究提供了基础蓝图。我们的项目可在https://friedrichor.github.io/projects/UNITE 访问。
目标语音提取(Target Speech Extraction, TSE)旨在通过利用特定于说话者的线索,通常以辅助音频(即提示音频)形式提供,从多位说话者的混合语音中分离出目标说话者的声音。尽管近期TSE的进展主要依赖于提供高感知质量的判别模型,但这些模型常常引入不必要的伪影,降低自然度,并对训练与测试环境之间的差异敏感。另一方面,生成模型在TSE任务中的感知质量和清晰度方面表现欠佳。为解决这些挑战,我们提出了SoloSpeech,一种新颖的级联生成管道,集成了压缩、提取、重建和校正过程。SoloSpeech采用了一种无需说话者嵌入的目标提取器,它利用提示音频潜在空间中的条件信息,并将其与混合音频的潜在空间对齐,以防止不匹配。在广泛使用的Libri2Mix数据集上评估,SoloSpeech在目标语音提取和语音分离任务中实现了新的最先进的清晰度和质量,同时展示了在域外数据和真实场景中的卓越泛化能力。
近期,多模态大语言模型(MLLMs)的显著进展极大地提升了其能力;然而,其空间感知能力仍是一个显著的局限。为应对这一挑战,多模态数据合成提供了一种颇具前景的解决方案。然而,确保合成数据遵循空间常识并非易事。本研究中,我们提出了SKG2Data,一种基于空间知识图谱引导的新型多模态合成方法,其核心理念是知识到数据的生成。SKG2Data自动构建空间知识图谱(SKG),以模拟人类对空间方向与距离的感知,进而指导多模态数据的合成。大量实验表明,基于多种空间知识(包括方向与距离)合成的数据,不仅增强了MLLMs的空间感知与推理能力,还展现出强大的泛化能力。我们期望,基于知识的数据合成理念能够推动空间智能的发展。
尽管虚拟试穿(VTON)系统致力于将服装渲染至目标人物图像上,本文则聚焦于一项新颖任务——虚拟脱衣(VTOFF),它解决的是逆向问题:从穿着服装的真实人物照片中生成标准化的服装产品图像。与VTON需应对多样的姿态和风格变化不同,VTOFF得益于一致且定义明确的输出格式——通常是服装的平铺展示形式,这使其成为数据生成与数据集增强的有力工具。然而,现有VTOFF方法面临两大局限:(i)难以从遮挡和复杂姿态中分离服装特征,常导致视觉伪影;(ii)仅适用于单一类别服装(如上衣),限制了其泛化能力。为应对这些挑战,我们提出了文本增强多类别虚拟脱衣(TEMU-VTOFF),一种创新架构,采用双DiT基干网络并改进多模态注意力机制,以实现稳健的服装特征提取。该架构设计为接收来自图像、文本及掩码等多模态的服装信息,以适应多类别场景。此外,我们引入了一个额外的对齐模块,以进一步优化生成的视觉细节。在VITON-HD和Dress Code数据集上的实验表明,TEMU-VTOFF在VTOFF任务上树立了新的技术标杆,显著提升了视觉质量及对目标服装的忠实度。
随着大型语言模型在能力和自主性方面的不断提升,通过红队测试识别其脆弱性对于安全部署变得至关重要。然而,一旦红队测试演变为强弱对抗问题,即目标模型的能力超越红队成员时,传统的提示工程方法可能失效。为研究这一转变,我们从攻击者与目标之间能力差距的视角来审视红队测试。我们评估了超过500对攻击者-目标组合,采用基于LLM的越狱攻击模拟人类红队成员,涵盖不同模型家族、规模和能力水平。三个显著趋势显现:(一)能力更强的模型作为攻击者表现更佳,(二)一旦目标能力超过攻击者,攻击成功率急剧下降,(三)攻击成功率与MMLU-Pro基准测试中社会科学部分的高分表现相关。基于这些趋势,我们推导出一条越狱扩展定律,能够根据攻击者与目标的能力差距预测固定目标的攻击成功率。这些发现表明,固定能力的攻击者(如人类)可能在未来模型面前失效,日益强大的开源模型加剧了现有系统的风险,模型提供商必须准确衡量并控制模型的劝说与操控能力,以限制其作为攻击者的效能。
数字取证与事件响应(DFIR)涉及分析数字证据以支持法律调查。大型语言模型(LLMs)为DFIR任务(如日志分析和内存取证)提供了新的机遇,但其在关键场景中易出错和产生幻觉的特性引发了担忧。尽管兴趣日益增长,但目前尚无全面基准来评估LLMs在理论和实践DFIR领域的表现。为填补这一空白,我们提出了DFIR-Metric基准,包含三个组成部分:(1)知识评估:一套由行业标准认证和官方文档中提取的700道专家评审多选题;(2)真实取证挑战:150项CTF风格任务,测试多步推理和证据关联能力;(3)实际分析:来自NIST计算机取证工具测试计划(CFTT)的500个磁盘和内存取证案例。我们使用DFIR-Metric评估了14个LLMs,分析了它们在多次试验中的准确性和一致性。此外,我们还引入了一个新指标——任务理解得分(TUS),旨在更有效地评估模型在接近零准确率场景下的表现。该基准为推进人工智能在数字取证中的应用提供了严谨、可复现的基础。所有脚本、工件和结果均可在项目网站https://github.com/DFIR-Metric上获取。
当前最先进的文本到动作生成模型依赖于由HumanML3D推广的、基于运动学感知的局部相对运动表示方法,该方法通过相对于骨盆和前一帧的编码,内置了冗余信息。虽然这种设计简化了早期生成模型的训练,但它为扩散模型引入了关键限制,并阻碍了在下游任务中的应用。在本研究中,我们重新审视了运动表示方法,并提出了一种极简且长期被忽视的替代方案用于文本到动作生成:全局空间中的绝对关节坐标。通过对设计选择的系统分析,我们展示了这种表示方式即使在简单的Transformer骨干网络和无辅助运动学感知损失的情况下,也能实现显著更高的动作保真度、改进的文本对齐以及强大的可扩展性。此外,我们的表示方式自然支持下游任务,如文本驱动的动作控制和时间/空间编辑,无需额外的任务特定重构和从控制信号生成昂贵的分类器指导。最后,我们展示了直接从文本生成SMPL-H网格顶点运动的良好泛化能力,为未来研究和动作相关应用奠定了坚实的基础。
随着生成模型的快速发展,通用生成作为一种统一多模态任务的有前景方法,正受到越来越多的关注。尽管取得了这些进展,现有的开源框架往往仍显脆弱,由于缺乏结构化的工作流规划和执行层面的反馈,难以支持复杂的现实应用。为解决这些局限,我们提出了ComfyMind,一个基于ComfyUI平台构建的协作式AI系统,旨在实现稳健且可扩展的通用生成。ComfyMind引入了两大核心创新:语义工作流接口(SWI),它将底层节点图抽象为用自然语言描述的可调用功能模块,支持高级组合并减少结构错误;以及带有局部反馈执行的搜索树规划机制,它将生成过程建模为层次化决策过程,允许在每个阶段进行自适应修正。这些组件共同提升了复杂生成工作流的稳定性和灵活性。我们在三个公开基准上评估了ComfyMind:ComfyBench、GenEval和Reason-Edit,涵盖了生成、编辑和推理任务。结果显示,ComfyMind持续超越现有开源基线,并取得了与GPT-Image-1相当的性能。ComfyMind为开源通用生成AI系统的发展开辟了一条充满希望的道路。项目页面:https://github.com/LitaoGuo/ComfyMind
基于视觉-语言模型(VLM)的网络代理在模拟人类与网站交互以自动化复杂任务方面迈出了重要一步。然而,在不受控的网络环境中部署这些代理引入了显著的安全漏洞。现有关于对抗性环境注入攻击的研究往往依赖于不切实际的假设,如直接操作HTML、知晓用户意图或访问代理模型参数,这限制了其实际应用性。本文提出AdInject,一种新颖且实用的黑盒攻击方法,利用互联网广告投放向网络代理环境中注入恶意内容。AdInject在比先前工作更为现实的威胁模型下运作,假设代理为黑盒、恶意内容静态受限且无需特定用户意图知识。AdInject包含设计误导代理点击的恶意广告内容策略,以及一种基于VLM的广告内容优化技术,该技术从目标网站上下文中推断潜在用户意图,并将这些意图融入广告内容,使其对代理任务显得更为相关或关键,从而提升攻击效果。实验评估证实了AdInject的有效性,在多数场景下攻击成功率超过60%,在特定情况下接近100%。这有力证明了普遍存在的广告投放构成了针对网络代理环境注入攻击的强大且现实的载体。本工作揭示了网络代理安全中由现实环境操控渠道引发的关键漏洞,强调了开发针对此类威胁的鲁棒防御机制的紧迫性。我们的代码可在https://github.com/NicerWang/AdInject获取。
视觉语言模型(VLMs)在多种任务中表现出色,但其推理过程在时间和内存上成本高昂。通过令牌稀疏性可以缓解令牌使用中的低效问题,而神经元稀疏性则能减少高维计算,两者均为提升效率提供了有前景的解决方案。近期,这两种稀疏性范式大多并行发展,形成了它们独立运作的普遍假设。然而,一个基础却尚未深入探讨的问题依然存在:它们是否真的孤立运作,还是存在一种尚未揭示的深层次相互作用?本文首次对这一疑问进行了全面探究。通过引入并分析核心神经元与核心令牌之间的匹配机制,我们发现推理中的关键神经元与令牌相互影响并强化彼此。基于这一洞见,我们提出了CoreMatching,一个协同适应的稀疏推理框架,它利用令牌与神经元稀疏性之间的协同效应来提升推理效率。通过理论分析与效率评估,我们证明了所提方法在十项图像理解任务及三种硬件设备上均超越了现有最佳基线。特别是在NVIDIA Titan Xp上,实现了5倍的浮点运算减少和10倍的整体加速。代码已发布于https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main。
DeepSeek-R1在文本领域通过稳定的强化学习(RL)展现了强大的推理能力。近期,在多模态领域,研究开始直接应用RL生成类似R1的自由形式推理,以应对视觉问答(VQA)任务。然而,多模态任务与文本任务本质不同,前者高度依赖对输入图像的理解来解决问题。因此,在VQA任务中,这种自由形式推理面临两个关键限制:(1)延长的推理链分散了对任务关键区域的视觉关注,降低了答案准确性。(2)不可验证的中间步骤放大了策略梯度的方差和计算成本。为解决这些问题,本文提出了SATORI(基于空间锚定的任务优化与强化学习),它将VQA分解为三个可验证阶段,包括全局图像描述、区域定位和答案预测,每个阶段提供明确的奖励信号。此外,我们还引入了VQA-Verify,一个包含12k条标注有答案对应描述和边界框的数据集,以促进训练。实验表明,在七个VQA基准测试中均实现了性能的持续提升,与类似R1的基线相比,准确率最高提升了15.7%。我们对注意力图的分析证实了对关键区域关注度的增强,从而带来了准确率的提升。我们的代码可在https://github.com/justairr/SATORI-R1获取。
专家混合(MoE)架构使得大规模语言模型(LLMs)能够扩展至海量参数规模,而无需相应增加计算成本。然而,大型MoE模型对内存的高需求阻碍了其在从云服务器到消费设备等多种计算环境中的部署。本研究首先揭示了MoE层内专家激活模式在特定任务上的显著专一性。基于此,我们提出了PreMoe,一个创新框架,旨在内存受限环境中高效部署巨型MoE模型。PreMoe包含两大核心组件:概率性专家剪枝(PEP)和任务自适应专家检索(TAER)。PEP采用了一种新指标——任务条件期望选择分数(TCESS),该分数源自路由器逻辑值,用以量化特定任务下专家的重要性,从而识别出关键专家的最小集合。TAER则利用这些任务特定的专家重要性档案进行高效推理,预先计算并存储针对不同任务的紧凑专家模式。当接收到用户查询时,TAER迅速识别最相关的存储任务模式,并通过仅加载对该任务至关重要的少量专家来重构模型,此举显著降低了所有部署场景下的内存占用。DeepSeek-R1 671B在剪枝至8/128配置(专家减少50%)时,在MATH500上保持了97.2%的准确率,即便在更为激进的8/32剪枝(专家减少87.5%)下,仍达到72.0%。Pangu-Ultra-MoE 718B在8/128剪枝下,于MATH500和AIME24上分别取得97.15%和81.3%的成绩,而进一步剪枝至4/64(内存占用390GB)时,在MATH500上的准确率仍保持在96.95%。我们的代码已公开发布于https://github.com/JarvisPei/PreMoe。
本研究旨在通过强化学习(RL)激发多模态大语言模型(MLLMs)的推理能力,并开发一种有效方法以缓解RL过程中的稀疏奖励与优势消失问题。为此,我们提出了Share-GRPO,一种新颖的RL方法,该方法通过在扩展的问题空间中探索并共享多样化的推理轨迹来应对上述挑战。具体而言,Share-GRPO首先利用数据转换技术为给定问题扩展问题空间,随后鼓励MLLM在扩展后的问题空间中有效探索多样化的推理轨迹,并在RL过程中跨扩展问题共享所发现的推理轨迹。此外,Share-GRPO还在优势计算过程中共享奖励信息,分层估计问题变体间及变体内的解决方案优势,从而实现更准确的相对优势估计,并提升策略训练的稳定性。在六个广泛使用的推理基准上的大量评估验证了我们方法的卓越性能。代码将发布于https://github.com/HJYao00/R1-ShareVL。
理解模型预测不确定性的来源对于实现有效的人机协作至关重要。先前的研究提出了使用数值不确定性或模糊表达(如“我不确定,但是……”)的方法,这些方法未能解释由证据冲突引发的不确定性,使得用户无法解决分歧或依赖输出结果。我们引入了CLUE(冲突与一致性感知的语言模型不确定性解释框架),这是首个通过以下方式生成模型不确定性自然语言解释的框架:(i) 以无监督方式识别文本片段间的关系,这些关系揭示了驱动模型预测不确定性的主张-证据或证据间的冲突与一致性;(ii) 通过提示和注意力引导生成解释,将这些关键互动以语言形式表达出来。在三个语言模型和两个事实核查数据集上的实验表明,与未经片段互动指导直接提示生成的不确定性解释相比,CLUE生成的解释更忠实于模型的不确定性,且与事实核查决策更为一致。人类评估者认为我们的解释更有帮助、信息更丰富、冗余更少,且与输入的逻辑一致性更强。CLUE无需微调或架构改动,可即插即用于任何白盒语言模型。通过明确将不确定性与证据冲突联系起来,它为事实核查提供了实用支持,并易于推广至其他需要复杂信息推理的任务。
针对组合优化问题的动态规划(DP)算法,在其递归算法中运用了最大化、最小化及经典加法运算。相应的价值函数对应于最大加半环中的凸多面体。然而,现有的神经算法推理模型依赖于经过softmax归一化的点积注意力机制,其中平滑的指数权重模糊了这些锐利的多面体结构,并在面对分布外(OOD)场景时表现崩溃。我们引入了热带注意力,这是一种新颖的注意力函数,它原生地运行于热带几何的最大加半环中。我们证明了热带注意力能够近似模拟DP型组合算法的热带电路。随后,我们提出,在算法推理任务中,采用热带变换器能够提升长度泛化和价值泛化方面的OOD实证性能,超越softmax基线,同时在对抗攻击下保持稳定。我们还提出了对抗攻击泛化作为神经算法推理基准测试的第三个维度。我们的研究结果表明,热带注意力恢复了softmax所缺失的锐利、尺度不变的推理能力。
大型语言模型(LLMs)日益被视为科学发现,尤其是分子科学领域中的强大工具。这些模型的一个基本要求是能够准确理解分子结构,通常以SMILES表示法编码。然而,当前的LLMs在解析SMILES方面存在困难,甚至无法完成诸如计数分子环等基础任务。为解决这一局限,我们提出了CLEANMOL,一个创新框架,它将SMILES解析转化为一系列明确设计以促进图级别分子理解的清洁且确定性的任务。这些任务涵盖从子图匹配到全局图匹配,提供了与分子结构特性对齐的结构化监督。我们构建了一个具有自适应难度评分的分子预训练数据集,并在这些任务上对开源LLMs进行了预训练。结果表明,CLEANMOL不仅增强了结构理解能力,还在Mol-Instructions基准测试中取得了最佳成绩或与基线模型相媲美。
检索增强生成技术通过将外部语料库中检索到的段落加入大语言模型(LLM)的提示中,提升了其准确性。本文探讨了位置偏差——即LLM根据信息在提示中的位置赋予不同权重的倾向——如何不仅影响LLM利用相关段落的能力,还影响其对干扰段落的敏感性。通过在三个基准数据集上的大量实验,我们发现,尽管最先进的检索流程旨在获取相关段落,却系统性地将高度干扰的段落推至前列,超过60%的查询在其前10个检索段落中至少包含一个高度干扰的段落。因此,在受控环境中常被相关研究报道为非常显著的位置偏差效应,在实际场景中其实影响甚微,因为相关段落和干扰段落同样受到了抑制。实际上,我们的研究结果表明,试图根据LLM的位置偏好重新排列段落的复杂策略,其表现并不优于随机打乱顺序。
视觉Transformer(ViTs)已成为视觉处理任务的主导架构,展现出随着训练数据和模型规模增加而优异的扩展性。然而,近期研究揭示了ViTs中出现的与局部语义不符的伪影标记,这些异常标记在需要精细定位或结构一致性的任务中降低了ViT的性能。一种有效的缓解方法是在ViTs中加入寄存器标记,这些标记在训练过程中隐式地“吸收”伪影。鉴于多种大规模预训练ViTs的可用性,本文旨在无需从头重新训练(考虑到其规模,这并不可行)的情况下,为它们配备此类寄存器标记。具体而言,我们提出了事后寄存器(PH-Reg),一种高效的自蒸馏方法,它能在无需额外标注数据和完全重新训练的情况下,将寄存器整合到现有ViT中。PH-Reg从同一预训练ViT初始化教师和学生网络,教师网络保持冻结且未修改,而学生网络则通过随机初始化的寄存器标记进行增强。通过对教师网络的输入应用测试时增强,我们生成无伪影的降噪密集嵌入,随后仅用于优化学生网络中一小部分解锁的权重。我们证明,该方法能有效减少伪影标记的数量,在零样本和线性探测下提升学生ViT的分割和深度预测性能。
蛋白质语言模型(PLMs)已成为检测蛋白质序列复杂模式的有力工具。然而,PLMs全面捕捉蛋白质序列信息的能力可能因专注于单一预训练任务而受限。尽管增加数据模态或监督目标可以提升PLMs的性能,但预训练通常仍集中于去噪受损序列。为了突破PLMs的界限,我们的研究探索了一种多任务预训练策略。我们开发了Ankh3模型,该模型在两项任务上联合优化:采用多种掩码概率的掩码语言建模,以及仅依赖蛋白质序列作为输入的序列补全。这种多任务预训练表明,PLMs能够仅从蛋白质序列中学习到更丰富且更具泛化性的表征。实验结果显示,在下游任务如二级结构预测、荧光、GB1适应度及接触预测中,模型性能均有所提升。多任务的整合使模型对蛋白质特性有了更全面的理解,从而实现了更稳健、更准确的预测。
蛋白质-蛋白质相互作用(PPIs)是众多细胞过程的基础,其表征对于理解疾病机制和指导药物发现至关重要。尽管蛋白质语言模型(PLMs)在预测蛋白质结构和功能方面取得了显著成功,但它们在基于序列的PPI结合亲和力预测中的应用仍相对较少。这一差距通常归因于高质量、严格精炼数据集的稀缺以及对简单蛋白质表示串联策略的依赖。在本研究中,我们针对这些局限性进行了改进。首先,我们引入了一个精心整理的PPB-Affinity数据集版本,包含总计8,207个独特的蛋白质-蛋白质相互作用条目,通过解决多链蛋白质相互作用中的注释不一致和重复条目问题。该数据集采用了严格的序列同一性阈值(≤30%),以确保训练集、验证集和测试集的稳健划分,最大限度地减少数据泄露。其次,我们提出并系统评估了四种将PLMs应用于PPI结合亲和力预测的架构:嵌入串联(EC)、序列串联(SC)、层次池化(HP)和池化注意力加法(PAD)。这些架构通过两种训练方法进行评估:全微调和一种轻量级方法,即在冻结的PLM特征上使用ConvBERT头。我们在多个领先的PLMs(ProtT5、ESM2、Ankh、Ankh2和ESM3)上进行的全面实验表明,HP和PAD架构始终优于传统的串联方法,在Spearman相关系数上实现了高达12%的提升。这些结果强调了复杂架构设计的必要性,以充分利用PLMs在精细PPI结合亲和力预测中的潜力。
神经退行性痴呆的鉴别诊断是一项极具挑战性的临床任务,主要源于症状表现的重叠以及结构神经影像中观察到的模式相似性。为提高诊断效率和准确性,基于深度学习的方法,如卷积神经网络和视觉Transformer,已被提出用于脑部MRI的自动分类。然而,尽管这些模型具有强大的预测性能,但由于其决策过程的不透明性,在临床应用中受到限制。在本研究中,我们提出了一种整合两大核心组件的框架,以增强诊断的透明度。首先,我们引入了一个模块化流程,将3D T1加权脑部MRI转换为放射学报告文本。其次,我们探索了现代大型语言模型(LLMs)在基于生成报告进行额颞叶痴呆亚型、阿尔茨海默病与正常衰老之间鉴别诊断中的辅助潜力。为弥合预测准确性与可解释性之间的鸿沟,我们采用强化学习激励LLMs进行诊断推理。无需监督推理轨迹或从更大模型蒸馏,我们的方法促使基于神经影像发现的结构化诊断理由自然涌现。与事后解释方法回顾性地为模型决策提供辩护不同,我们的框架在推理过程中生成诊断理由,产生因果基础的解释,这些解释不仅告知还指导模型的决策过程。通过这种方式,我们的框架在保持现有深度学习方法诊断性能的同时,提供了支持其诊断结论的推理依据。