每日精选AI研究论文及翻译
人工智能代理的崛起带来了由自主工具使用和环境交互引发的复杂安全挑战。当前防护模型缺乏对代理风险的认知能力及风险诊断的透明度。为构建覆盖复杂多样风险行为的代理防护机制,我们首次提出统一的三维分类法,从风险来源(何处)、失效模式(如何)和后果影响(什么)三个正交维度系统划分代理风险。基于这种结构化层次分类体系,我们推出了新型细粒度代理安全基准(ATBench)及代理安全诊断防护框架(AgentDoG)。该框架能对代理行为轨迹进行细粒度的情境化监控,更重要的是可诊断不安全行为及看似安全但不合理行为的根本原因,通过提供溯源信息和超越二元标签的透明度来促进有效的代理对齐。AgentDoG提供Qwen和Llama模型系列的三种参数规模(4B/7B/8B),大量实验表明其在多样复杂交互场景中实现了最先进的代理安全管控性能。所有模型与数据集均已开源发布。
当人类面临超出即时能力的问题时,会借助工具寻求解决,这为提升多模态大语言模型的视觉推理能力提供了可行范式。有效的推理关键在于:即使面对新工具或新任务,也能准确判断使用何种工具、何时调用工具以及如何分步骤组合工具。我们提出AdaReasoner——一个将工具使用作为通用推理技能而非特定工具行为或显式监督行为的多模态模型家族。该模型通过三大创新实现突破:(一)可扩展的数据构建流程,使模型接触长跨度、多步骤的工具交互;(二)Tool-GRPO强化学习算法,根据终端任务成功率优化工具选择与序列组合;(三)自适应学习机制,动态调节工具使用策略。这些组件协同工作,使模型能够从任务上下文和中间结果推断工具效用,实现多工具协调运作并对未见工具泛化应用。实验表明,AdaReasoner展现出强大的工具自适应与泛化能力:尽管未接受显式训练,它能自主采纳有效工具、抑制无关工具,并根据任务需求动态调整工具使用频率。这些能力使其在多项挑战性基准测试中达到最先进水平,7B基础模型平均性能提升24.9%,在VSP、Jigsaw等任务上甚至超越GPT-5等强效专有系统。
在机器人操作领域展现出巨大潜力,具备卓越能力的视觉-语言-动作基础模型应当能够忠实泛化至不同任务与平台,同时确保成本效益(例如适应过程所需的数据量与GPU时耗)。为此,我们基于9种主流双机械臂配置采集的约2万小时真实数据,开发出LingBot-VLA模型。通过对3个机器人平台进行系统评估(每个平台完成100项任务,每项任务包含130次训练后测试),我们的模型显著超越同类方案,展现出卓越性能与广泛泛化能力。我们还构建了高效代码库,在8卡GPU训练配置下实现每秒261样本的吞吐量,相较现有VLA专用代码库提速1.5~2.8倍(具体取决于所基于的VLM基础模型)。这些特性确保我们的模型非常适合实际场景部署。为推进机器人学习领域发展,我们开源了代码、基础模型与基准数据,致力于支持更具挑战性的任务并推动建立科学的评估标准。
人类通过构建内部世界模型并操纵其中的概念进行推理。人工智能领域的最新进展,特别是思维链推理技术,正在逼近这种人类认知能力——世界模型被认为内嵌于大语言模型之中。当前系统已能依靠以语言为主的推理方式,在数学、编程等形式化与抽象领域实现专家级表现。然而在需要更丰富表征与先验知识的物理、空间智能等领域,它们仍远落后于人类。兼具语言与视觉生成能力的统一多模态模型的出现,由此激发了人们对基于互补多模态路径、实现更类人推理的研究兴趣,但其优势尚不明确。本文从世界模型视角出发,首次系统性地研究了视觉生成在何时以及如何促进推理。我们提出的核心观点是视觉优势假说:对于某些任务(尤其是物理世界相关任务),视觉生成能更自然地充当世界模型,而纯语言世界模型则会受限于表征能力不足或先验知识欠缺。理论上,我们将内部世界建模形式化为思维链推理的核心组件,并分析不同形式世界模型的差异。实证方面,我们识别出需要交错式视觉-语言思维链推理的任务,构建了新型评估套件VisWorld-Eval。在顶尖统一多模态模型上的对照实验表明:在适合视觉世界建模的任务中,交错式思维链显著优于纯语言思维链,而在其他任务中则无明显优势。本研究从理论与实践层面阐明了多模态世界建模对开发更强大、更类人的多模态人工智能的潜力。
网络音视频片段通过随时间变化的声音与动态传递意义,其内涵远超纯文本所能承载。为探究AI模型能否在人类文化语境下理解此类信号,我们推出AVMeme Exam——一个由人工精心筛选的评测基准,涵盖千余个标志性网络声音与视频,涉及语音、歌曲、音乐及音效等多种类型。每个模因配有专属问答,评估从表层内容到语境情感、从使用方式到世界知识的理解层级,同时附带原始年份、文字转写、内容摘要及敏感度等元数据。我们基于该基准系统化评估了前沿多模态大语言模型与人类参与者的表现。研究结果揭示了一个持续性局限:当前模型在无文本音乐与音效任务中表现欠佳,相较于表层内容理解,其在文化语境下的思维能力明显不足。这些发现凸显了人类对齐多模态智能的关键短板,呼吁开发能够超越视听表象、实现情境化与文化化感知的新模型。项目页面:avmemeexam.github.io/public
尽管视觉语言模型(VLMs)取得了显著进展,但现有架构往往存在细粒度视觉信息保留不足的问题,导致多模态理解停留在粗粒度层面。我们将这一缺陷归因于主流VLM训练范式的固有局限——其文本主导的优化偏差将视觉信号仅视为被动条件输入而非监督目标。为突破此限制,我们提出Youtu-VL框架,采用视觉语言统一自回归监督(VLUAS)范式,将优化目标从"视觉作为输入"根本性转向"视觉作为目标"。通过将视觉标记直接整合至预测流,Youtu-VL对视觉细节与语言内容实施统一的自回归监督。此外,我们将该范式拓展至视觉中心任务,使标准VLM无需任务特定适配即可执行此类任务。大量实证评估表明,Youtu-VL在通用多模态任务和视觉中心任务上均达到领先性能,为开发全能型通用视觉智能体奠定了坚实基础。
大型语言模型(LLMs)推动了生成式智能体模拟(如AI Town)的发展,以构建“动态世界”,在娱乐和研究领域具有巨大价值。然而对于非专业人士,特别是缺乏编程技能的用户而言,自行定制可视化环境存在困难。本文提出World Craft框架——一种通过用户文本描述创建可执行、可视化AI Town的智能世界构建方案。该框架包含两大核心模块:World Scaffold与World Guild。World Scaffold通过结构化、简洁的标准化方案开发交互式游戏场景,为LLMs定制可执行的类AI Town环境提供高效支撑;World Guild则采用多智能体框架逐步解析用户粗略描述中的意图,并为World Scaffold合成所需的结构化内容(如环境布局与资源)。此外,我们通过逆向工程构建高质量纠错数据集以增强空间知识,提升布局生成的稳定性与可控性,同时报告多维评估指标以供深度分析。大量实验表明,本框架在场景构建与叙事意图传达方面显著优于现有商业代码智能体(Cursor和Antigravity)及大语言模型(Qwen3和Gemini-3-Pro),为环境创建的普适化提供了可扩展的解决方案。
长上下文大语言模型(LLMs)的快速发展,重新引发了关于检索增强生成(RAG)是否仍有必要的讨论。然而实证研究表明,长上下文推理仍存在固有局限,包括中间信息丢失现象、高昂的计算成本以及多文档推理的可扩展性差等问题。相比之下,传统RAG系统虽然高效,但受限于平面分块检索机制,这种机制会引入语义噪声且无法支持结构化的跨文档综合。 我们提出FABLE框架——一种基于森林的自适应双路径LLM增强检索系统,将LLMs深度融合到知识组织与检索两个层面。该框架首先构建具有多粒度语义结构的LLM增强型层次化森林索引,随后采用双路径检索策略:结合LLM引导的层次化遍历与结构感知传播机制实现细粒度证据获取,并通过显式预算控制实现自适应效率权衡。 大量实验表明,FABLE不仅持续超越现有最优RAG方法,更在减少高达94%令牌消耗的同时达到与全上下文LLM推理相当的精度。这证明长上下文LLMs实际上强化而非完全取代了对结构化检索的需求。
近年来,大语言模型的安全风险日益凸显,遏制有害内容生成的需求迫在眉睫。当前主流的安全对齐范式通常采用三方协作框架:负责生成对抗提示的攻击者、实施安全防护的防御者,以及进行响应评估的评判者。本文提出名为TriPlay-RL的闭环强化学习框架,可在近乎零人工标注的条件下实现三方角色的迭代式协同进化。实验表明:攻击者在保持高输出多样性的同时,对抗有效性提升20%-50%;防御者安全性能获得10%-30%的增益,且不影响通用推理能力;评判者通过迭代持续优化细粒度判别能力,可精准区分不安全回复、简单拒绝与有效引导。该框架构建了高效可扩展的安全对齐新范式,在统一学习循环中实现了持续协同进化。
大规模语言模型(LLM)的扩展正面临瓶颈。拓宽模型宽度带来的收益递减,延长上下文长度也无法提升根本表达能力。相比之下,深度扩展理论上具有更优的表达能力,但当前Transformer架构在极端深度下难以稳定训练。我们重新审视后层归一化(Post-LN)结构——其在大规模训练中的不稳定性导致现代LLM普遍采用前层归一化(Pre-LN)作为替代。研究发现Post-LN的核心失效模式源于ResNet风格的残差路径,该路径会导致深度网络中的梯度消失。我们提出Keel模型,这是一种采用高速公路式(Highway-style)连接替代传统残差路径的Post-LN Transformer。这种改进能保持残差分支的梯度流动,防止顶层信号向底层传递时消失。与现有方法不同,Keel无需特殊初始化或复杂优化技巧即可实现极端深度下的稳定训练。该模型在超过1000层的深度下仍能稳健训练,并在困惑度和深度扩展特性上持续优于Pre-LN。这些发现表明,当Post-LN与高速公路式连接结合时,可为构建深度可扩展的LLM提供简单有效的基座,为未来无限深度架构开辟了可能性。
尽管在模型对齐方面取得显著进展,大型语言模型(LLMs)仍易受引发有害行为的对抗性攻击。激活导向技术作为一种具有前景的推理时干预手段,现有方法却存在关键局限:激活加法需要精细的系数调整且对层间范数变化敏感,而定向消融仅能实现二元控制。近期提出的角度导向法通过二维子空间旋转实现连续控制,但其实际实施破坏了范数保持特性,导致分布偏移和生成崩溃,尤其在70亿参数以下的模型中尤为明显。我们提出选择性导向方法,通过两项关键创新解决上述问题:(1)采用数学严谨的范数保持旋转公式,维持激活分布完整性;(2)通过判别性层级选择,仅在特征表征呈现相反符号类别对齐的层级实施导向。在九个模型上的实验表明,选择性导向的攻击成功率较现有方法提升5.5倍,同时在标准基准测试中保持零困惑度异常与约100%的能力保留。该方法为可控且稳定的大模型行为修正提供了原理清晰、高效可行的框架。代码地址:https://github.com/knoveleng/steering
现代数据并行(DP)训练因平衡负载下的简洁高效性,更倾向于采用集体通信而非参数服务器(PS)架构。然而在大语言模型(LLM)后训练阶段,由于序列长度的高方差性,平衡负载的假设不再成立。在负载不均衡场景下,集体通信会形成同步屏障,导致低负载设备利用率不足。这种训练动态的变化促使我们重新审视参数服务器范式对此类不均衡情况的鲁棒性。我们提出按需通信(ODC)方法,通过用直接点对点通信取代集体全收集和规约散射操作,将参数服务器理念融入全分片数据并行(FSDP)框架。相较于FSDP,ODC将同步屏障从每层一次降低为每小批次一次,并解耦各设备的工作负载,使快速计算设备免于停滞等待。该方法还能在小批次数级别实现更简洁有效的负载均衡。在多样化LLM后训练任务中,ODC持续提升设备利用率和训练吞吐量,较标准FSDP最高可实现36%的加速效果。这些结果表明ODC能更好地适应LLM后训练中普遍存在的负载不均衡场景。我们的ODC实现及与FSDP的集成方案已开源:https://github.com/sail-sg/odc。
我们提出SimpleSeg,一种极其简洁却高效的方法,使多模态大语言模型(MLLMs)具备原生像素级感知能力。该方法将分割任务重新定义为简单的序列生成问题:模型直接在语言空间内预测描述物体边界的坐标点序列。为实现高精度匹配,我们引入两阶段SFtoRL训练流程,通过基于交并比奖励的强化学习优化点序列,使其精准贴合真实轮廓。研究发现,标准MLLM架构本身具备强大的底层感知潜力,无需专用结构即可激活该能力。在分割基准测试中,SimpleSeg取得了与依赖复杂任务专用设计的方法相媲美甚至更优的性能。这项工作表明精确的空间理解可通过简单点预测实现,挑战了当前对辅助组件的依赖,为构建更统一、更强大的视觉语言模型开辟了新路径。项目主页:https://simpleseg.github.io/
近期,我们在审稿论文、预印本及已发表文献中频繁观察到虚构引文现象,这些引文指向根本不存在的学术成果。此类"幻影引文"对科学可靠性构成严重威胁,当其出现在录用论文中时,还可能损害学术会议的公信力。本研究将此类虚构引文称为"幻引",系统考察了其分布规律与影响范围。通过分析ACL、NAACL和EMNLP三大会议2024至2025年所有出版物(包括主会论文、Findings系列及研讨会论文),我们发现近300篇论文存在至少一处幻引,其中多数发表于2025年。尤为值得注意的是,半数问题论文出现在最新举办的EMNLP 2025会议上,表明该问题呈快速蔓延趋势。更严重的是,EMNLP 2025主会及Findings系列录用的此类论文超过百篇,已对会议声誉造成实质性影响。
扩散模型虽能实现最先进的性能,却常难以生成符合人类偏好与意图的输出,导致图像存在审美质量不佳和语义不一致的问题。现有对齐方法面临艰难权衡:微调方法因奖励过优化而丧失多样性,测试时缩放方法则带来显著计算开销且容易优化不足。为突破这些局限,我们提出HyperAlign框架,通过训练超网络实现高效且有效的测试时对齐。该框架不直接修改隐状态,而是动态生成低秩适配权重来调制扩散模型的生成算子,使去噪轨迹能根据输入隐变量、时间步和提示词进行自适应调整,实现奖励条件对齐。我们开发了多种HyperAlign变体,其差异在于超网络的应用频率,以平衡性能与效率。此外,我们采用偏好数据正则化的奖励分数目标来优化超网络,以减少奖励破解现象。在Stable Diffusion和FLUX等扩展生成范式上的实验表明,HyperAlign在提升语义一致性与视觉吸引力方面显著优于现有微调及测试时缩放基线方法。
基准测试是追踪大语言模型发展进程的重要工具,然而数据集与评估方法中的误差持续削弱其有效性。本文推出Omni-MATH-2——经人工校订的Omni-MATH数据集版本,包含精确答案的洁净子集(n=4181)和带标签的非标准子集(n=247)。我们逐题审核以确保LaTeX可编译性、可解性与可验证性,具体措施包括补充缺失图表信息、标注需证明/估算/图像辅助的题目,并剔除冗余内容。这一流程显著降低了数据集引发的噪声,从而为模型性能提供更精准的评估。带标注的数据集还支持通过对比GPT-5 mini与原始Omni-Judge来评估评判者引发的噪声,结果显示两类评判者在洁净子集和带标签子集上均存在显著差异。专家标注表明,在评判分歧案例中Omni-Judge的错误率高达96.4%,证明其无法有效区分模型能力——甚至在基准测试远未达到饱和前已然如此。随着问题难度提升,我们发现必须采用能力更强的评判者,以防止评判错误掩盖模型间的真实差异。最后,两类评判者均未能识别带标签子集中存在的当前失效模式,这表明数据集质量与评判者可靠性对构建精准的模型性能基准同样至关重要。
G蛋白偶联受体(GPCRs)调控多种生理过程,是现代药理学研究的核心。然而,由于受体激活常源于复杂的变构效应而非直接结合亲和力,且传统检测方法速度慢、成本高、难以捕捉这些动态过程,GPCR调节剂的发现仍面临挑战。本文提出GPCR-Filter——一个专为GPCR调节剂发现而开发的深度学习框架。我们整合了超过9万个经实验验证的GPCR-配体对数据,为模型训练与评估提供了坚实基础。该框架融合ESM-3蛋白语言模型的高保真GPCR序列表征与图神经网络编码的配体结构,通过基于注意力的融合机制学习受体-配体功能关联。在多种评估场景下,GPCR-Filter持续超越最先进的化合物-蛋白质相互作用模型,并对未见过的受体和配体表现出强大泛化能力。值得注意的是,该模型成功识别出具有独特化学结构的5-HT1A受体微摩尔级激动剂。这些研究成果确立了GPCR-Filter作为可扩展的高效计算方法,为复杂信号系统的AI辅助药物研发提供了新路径。
深度传感器已在各类机器人平台广泛部署,而快速高保真深度模拟技术的进步使得基于深度观测训练的机器人策略能够在多种任务中实现稳健的仿真到现实迁移。尽管如此,与已由大规模基础模型定义技术前沿的RGB模态相比,深度模态的表征学习仍处于探索不足的状态。为弥补这一空白,我们提出DeFM——一种专为机器人应用设计的、完全基于深度图像训练的自监督基础模型。通过在精选的6000万张深度图像数据集上采用DINO风格的自蒸馏目标,DeFM能够学习可泛化至不同环境、任务和传感器的几何与语义表征。为在多尺度下保持度量感知能力,我们引入了一种新颖的输入归一化策略。进一步地,我们将DeFM蒸馏为适用于资源受限机器人系统的紧凑模型。在基于深度的分类、分割、导航、运动与操作基准测试中,DeFM实现了最先进的性能,并展现出从仿真到真实环境的强大泛化能力。我们开源所有预训练模型,这些模型可直接用于基于深度的机器人学习而无需任务特定微调。项目页面:https://de-fm.github.io/
解决团队冲突不仅需要任务专项能力,更需运用社交智慧寻找共同立场并建立共识。随着AI智能体在复杂工作中日益频繁地协作,它们必须发展协调能力以成为高效队友。然而我们假设当前智能体尚不具备这种能力。为验证此假设,我们推出CooperBench——一个包含4种编程语言、12个类库中600余项协作编程任务的基准测试集。每个任务为两个智能体分配不同功能特性,这些特性可独立实现但若缺乏协调则可能产生冲突。所有任务均基于真实开源代码库,并配备专家编写的测试用例。通过对前沿编程智能体的评估,我们观察到"协调悖论"现象:与独立完成两项任务相比,智能体协作时的平均成功率降低30%。这与人类团队形成鲜明对比——增加成员通常能提升团队效能。分析揭示三大关键问题:(1)沟通渠道被模糊、不合时宜且不准确的信息阻塞;(2)即使存在有效沟通,智能体仍会偏离承诺;(3)智能体常对其他成员的计划和沟通产生错误预期。通过大规模模拟,我们还观察到罕见但有趣的涌现协调行为,包括角色分工、资源分配和协商机制。本研究为协作编程提供了新型基准测试框架,呼吁从追求个体智能体能力转向发展社交智能。
Verilog的设计流程本质上是劳动密集型的,且需要深厚的领域专业知识。尽管大语言模型为实现自动化提供了可行路径,但其有限的训练数据和固有的顺序推理模式难以捕捉硬件系统严格的形式化逻辑与并发特性。为突破这些限制,我们提出了EvolVE——首个在芯片设计任务中分析多种进化策略的框架,发现蒙特卡洛树搜索在最大化功能正确性方面表现卓越,而思想引导优化法则在电路优化方面更具优势。我们进一步利用结构化测试平台生成技术加速进化过程。针对复杂优化基准缺失的问题,我们推出了源自全国集成电路竞赛产业级赛题的IC-RTL基准集。评估结果表明,EvolVE在VerilogEval v2和RTLLM v2上分别达到98.1%和92%的准确率,确立了最新技术标杆。在产业级IC-RTL测试中,本框架优于竞赛选手编写的参考实现:哈夫曼编码的功耗-性能-面积乘积最高降低66%,所有赛题的几何平均值优化幅度达17%。IC-RTL基准集源代码已发布于https://github.com/weiber2002/ICRTL。
持续学习旨在使模型能够获取新技能与知识而不损害现有能力,这始终是基础模型面临的核心挑战。虽然同策略强化学习可缓解遗忘问题,但其需要显式奖励函数作为支撑,而这类函数往往难以获取。基于专家示范的学习作为主要替代方案,目前以监督微调为主导,但该方法本质属于异策略学习。我们提出自蒸馏微调法——一种可直接从示范数据中实现同策略学习的简洁方法。该方法通过将示范条件化模型作为自身的教师模型,利用上下文学习能力生成同策略训练信号,从而在掌握新技能的同时保持原有能力。在技能学习与知识获取任务中,SDFT持续超越监督微调,不仅获得更高的新任务准确率,更显著降低灾难性遗忘。序列学习实验表明,SDFT能使单一模型随时间推移持续积累多项技能且不发生性能衰退,由此确立了基于示范的同策略蒸馏作为持续学习的可行路径。