每日精选AI研究论文及翻译
少步生成一直是长期追求的目标,近期以MeanFlow为代表的单步生成方法取得了显著成果。现有关于MeanFlow的研究主要集中于类别到图像的生成,然而一个直观但尚未探索的方向是将条件从固定类别标签扩展到灵活文本输入,从而实现更丰富的内容创作。与有限的类别标签相比,文本条件对模型理解能力提出了更高要求,需要将强大的文本编码器有效集成到MeanFlow框架中。令人惊讶的是,虽然引入文本条件看似直接,但我们发现采用传统训练策略集成基于LLM的文本编码器会导致性能不尽如人意。为探究根本原因,我们通过详细分析发现:由于MeanFlow生成过程中的 refinement 步骤数量极为有限(如仅一步),文本特征表示需要具备足够高的可区分性。这也解释了为何离散且易于区分的类别特征在MeanFlow框架中表现良好。基于这些发现,我们采用经验证具备所需语义特性的LLM文本编码器,并将MeanFlow生成过程适配至该框架,首次实现了高效的文本条件合成。此外,我们在广泛使用的扩散模型上验证了本方法,证明了生成性能的显著提升。我们希望这项工作能为未来文本条件MeanFlow生成研究提供通用且实用的参考。代码已开源:https://github.com/AMAP-ML/EMF。
思维链推理已成为基于视觉语言模型的自动驾驶轨迹预测的重要推动力,但其自回归特性带来的延迟成本难以满足实时部署需求。潜在思维链方法试图通过将推理过程压缩至连续隐状态来弥补这一差距,但始终未能超越显式推理方法的性能。我们认为这是由于纯语言化的潜在表征仅压缩了世界的符号化抽象,而非真正支配驾驶行为的因果动态。为此,我们提出OneVL(具有视觉语言解释的单步潜在推理与规划),这是一个统一化的视觉语言模型与世界模型框架,通过受双辅助解码器监督的紧凑潜在令牌来引导推理流程。除了重构文本思维链的语言解码器外,我们引入了视觉世界模型解码器来预测未来帧令牌,迫使潜在空间内化道路几何、智能体运动与环境变化的因果动态。三阶段训练流程逐步将这些潜在表征与轨迹、语言及视觉目标对齐,确保稳定的联合优化。在推理阶段,辅助解码器被舍弃,所有潜在令牌通过单次并行前馈完成预填充,实现与纯答案预测相当的速度。在四个基准测试中,OneVL成为首个超越显式思维链的潜在推理方法,在保持纯答案预测延迟的同时实现了最先进的精度,并直接证明:当同时接受语言和世界模型监督指导时,更紧密的压缩比逐令牌的冗长推理能产生更具泛化性的表征。项目页面:https://xiaomi-embodied-intelligence.github.io/OneVL
大型语言模型正日益被期望作为通用智能体,与外部具状态的工具环境进行交互。模型上下文协议(MCP)及更广泛的智能体技能为连接智能体与可扩展的现实世界服务提供了统一接口,但缺乏真实环境与终身学习机制的问题仍制约着鲁棒智能体的训练。本文提出Agent-World——一个通过可扩展环境推进通用智能体智能发展的自进化训练平台。该平台包含两大核心组件:(1)智能化的环境-任务发现机制,能够从数千个现实世界环境主题中自主探索主题对齐的数据库与可执行工具生态,并生成难度可控的可验证任务;(2)持续自进化的智能体训练系统,将多环境强化学习与自进化竞技场相结合,通过动态任务合成自动识别能力短板并驱动针对性学习,实现智能体策略与环境的协同进化。在23项具挑战性的智能体基准测试中,Agent-World的80亿参数和140亿参数版本均持续超越强力的专有模型及环境扩展基线。进一步分析揭示了环境多样性与自进化轮次相关的扩展规律,为构建通用智能体智能提供了重要启示。
游戏开发处于创意设计与复杂软件工程的交汇点,需要协同调度游戏引擎、实时循环系统以及跨多个文件的紧耦合状态。虽然大语言模型和代码智能体现在能轻松解决孤立的编程任务,但在根据高层设计生成完整可玩游戏时,它们总会因跨文件不一致、场景连接断裂和逻辑混乱而溃败。我们通过OpenGame填补这一空白——首个专为端到端网页游戏创作设计的开源智能体框架。其核心是"游戏技能",一种可演进的重用能力:包含通过经验积累项目骨架库的模板技能,以及维护已验证修复方案动态协议的调试技能。二者协同使智能体能构建稳定架构并系统修复集成错误,而非仅修补孤立语法问题。支撑该框架的是GameCoder-27B,这个专精游戏引擎的代码大模型通过持续预训练、监督微调和执行导向的强化学习三阶段流程打造。由于验证交互可玩性本质上比检查静态代码更困难,我们进一步推出OpenGame-Bench评估流程,通过无头浏览器执行和视觉语言模型评判,从构建健康度、视觉可用性和意图对齐度三个维度对智能体游戏生成进行评分。在150个多样化游戏提示的测试中,OpenGame确立了全新标杆。我们希望OpenGame能推动代码智能体突破离散的软件工程问题,迈向构建复杂的交互式现实应用。我们的框架将完全开源。
视频世界模型在模拟用户或智能体动作引发的环境动态方面已取得显著成就。这类模型通常被构建为动作条件化的视频生成模型,以历史帧和当前动作为输入来预测未来帧序列。然而,现有方法大多局限于单智能体场景,难以捕捉现实世界多智能体系统中固有的复杂交互。我们提出MultiWorld——一个面向多智能体多视角世界建模的统一框架,该框架在保持多视角一致性的同时,实现了对多个智能体的精准控制。我们引入了多智能体条件模块以实现精确的多智能体可控性,并采用全局状态编码器来确保不同视角间的观测一致性。MultiWorld支持智能体数量和视角数量的灵活扩展,并能并行合成不同视角以提升效率。在多玩家游戏环境和多机器人操作任务上的实验表明,MultiWorld在视频逼真度、动作跟随能力和多视角一致性方面均优于基线方法。项目页面:https://multi-world.github.io/
基于可验证奖励的强化学习(RLVR)在提升大语言模型推理能力方面已展现出显著成效。随着模型向原生多模态架构演进,将RLVR扩展至视频理解领域的重要性日益凸显,但该方向仍存在大量未解难题:视频任务类型多样、高维视觉输入重复解码与预处理的计算开销巨大、众多敏感超参数下难以实现可复现评估等。现有开源RL训练框架虽为文本和图像场景提供了坚实基础,却缺乏针对视频模态的系统性优化。本文提出EasyVideoR1——一个专为视频理解任务训练大视觉语言模型设计的完整高效强化学习框架,其核心贡献包括:(1)具备离线预处理与张量缓存的全流程视频RL训练管线,消除冗余视频解码操作,实现1.47倍吞吐量提升;(2)覆盖11类视频与图像问题的综合性任务感知奖励系统,支持统一路由与模块化扩展;(3)融合高质量人工标注轨迹与在线策略探索的混合式训练范式,有效促进复杂任务学习;(4)支持独立配置像素预算的图像-视频联合训练机制,实现跨模态能力协同增强;(5)涵盖22个主流视频理解基准的异步多基准评估框架,复现精度与官方报告指标高度吻合。
大型语言模型通常通过监督微调(SFT)和强化学习(RL)进行后训练,但如何有效统一高效知识注入与强泛化能力仍具挑战。本文通过训练动力学分析表明,SFT可视为策略梯度优化的特例:其隐含奖励极度稀疏且存在不稳定的逆概率加权,共同导致单一路径依赖、熵崩塌及梯度爆炸。基于此诊断,我们提出分组微调(GFT)——一种统一后训练框架,通过双重机制解决这些固有缺陷:分组优势学习通过构建多样化响应组并生成归一化对比监督以缓解奖励稀疏性;动态系数校正通过自适应约束逆概率权重来稳定优化过程,同时保持高效知识注入。实验表明,GFT始终优于基于SFT的方法,且产生的策略能与后续RL训练更平滑地集成。
大型语言模型正迅速进化为能够进行端到端网页编程的交互式代码生成体,然而现有基准测试仅评估了该能力的局部维度——通常局限于文本条件生成与静态正确性指标,致使视觉保真度、交互质量及代码库级推理能力长期缺乏有效衡量。我们推出多模态基准WebCompass,实现对网页工程能力的全生命周期统一评估。基于真实网页编程实为生成、编辑与修复的迭代循环这一认知,WebCompass涵盖文本、图像、视频三种输入模态与生成、编辑、修复三类任务类型,形成映射专业工作流的七大任务范畴。通过多阶段人机协同流程,我们构建了覆盖15个生成领域、16种编辑操作类型及11类修复缺陷的实例库,每个实例均标注易/中/难三级难度。评估方面,我们采用清单引导的LLM-as-a-Judge协议处理编辑与修复任务,并针对生成任务提出创新的Agent-as-a-Judge范式:该范式在真实浏览器中自动执行生成网站,通过模型上下文协议(MCP)探索交互行为,并迭代合成定向测试用例,高度逼近人工验收测试。对代表性闭源与开源模型的评估表明:(1)闭源模型仍保持显著优势且能力更均衡;(2)编辑与修复呈现差异化难度特征,修复任务能更好保持交互性但执行挑战更大;(3)美学表现是持续性瓶颈,对开源模型尤为突出;(4)框架选择显著影响结果,Vue持续表现吃力,而React和Vanilla/HTML则根据任务类型呈现不同优势。
目前,针对类爪型智能体的训练与评估环境构建仍依赖人工密集型流程,难以规模化扩展。我们认为,解决方案不应仅局限于数据集,而需建立能够按需生成多样化、可验证环境的自动化流程。为此,我们推出ClawEnvKit——一个能够将自然语言描述实例化为形式化环境的自主生成管道。该管道包含三大模块:(1)从自然语言输入中提取结构化生成参数的解析器;(2)生成任务规范、工具接口及评分配置的生成器;(3)对生成环境进行可行性、多样性、结构有效性及内部一致性验证的校验器。基于ClawEnvKit,我们构建了首个大规模类爪型智能体基准测试集Auto-ClawEval,涵盖24个类别的1,040个环境。实证表明,Auto-ClawEval在环境连贯性与清晰度上达到甚至超越人工构建水平,而成本降低至1/13800。通过对4大模型家族和8种智能体框架的评估,我们发现:框架工程相较基础ReAct基线最高可提升15.7个百分点的性能;任务完成度仍是主要差异维度,尚无模型能完全覆盖该基准;自动化生成实现了传统方法难以企及的大规模评估。除静态基准测试外,ClawEnvKit支持动态评估:用户通过自然语言描述所需能力,即可实时获取验证环境,使评估转化为持续的用户驱动流程。该机制还可作为按需训练环境生成器,产生适应智能体当前弱点的任务分布,突破既有用户日志的数据局限。
大型语言模型通过可验证奖励的强化学习(RLVR)实现了推理能力的显著提升。然而随着模型能力的增长,构建高质量奖励信号变得愈发困难,这使得理解RLVR在何种弱监督条件下仍能成功变得至关重要。我们在三种弱监督场景(稀缺数据、噪声奖励和自监督代理奖励)下,对不同模型家族和推理领域进行了系统性实证研究。研究发现泛化能力受训练奖励饱和动态的支配:能够泛化的模型会经历延长的预饱和阶段,此阶段训练奖励与下游性能同步提升;而快速饱和的模型则倾向于记忆而非学习。我们将推理忠实度(定义为中间步骤对最终答案的逻辑支持程度)确定为预测模型所处状态的关键预训练属性,而仅靠输出多样性则无法提供有效信息。基于这些发现,我们解析了持续预训练与监督微调(SFT)的各自作用:在弱监督下实现泛化需要基于显式推理链的SFT,而领域数据的持续预训练会放大这种效果。将这两种方法共同应用于Llama3.2-3B-Base模型后,该模型在原本失败的三种弱监督场景中均实现了泛化能力的突破。
随着智能体能力边界的持续拓展,其通过即插即用外部技能完成专项任务的能力日益增强。然而现有基准测试大多仅检验模型能否使用预设技能,却未涉及从经验中自主发现技能、故障后修复技能以及长期维护技能库连贯性等核心能力。我们提出SkillFlow基准测试集,涵盖20个任务族的166项任务,每个任务族均遵循领域无关执行流(DAEF)构建任务——该框架定义了智能体工作流范式,使得所有任务共享统一的工作流程。我们在智能体终身学习协议下进行评估:智能体从零技能起步,按序解决各任务族中的任务,通过轨迹与规则驱动的技能补丁外化学习成果,并持续更新技能库。实验揭示了显著的能力差距:Claude Opus 4.6通过终身技能演化将任务成功率从62.65%提升至71.08%(+8.43分)。但高技能使用率未必带来高效用——Kimi K2.5虽达到66.87%的技能使用率,仅提升0.60分;Qwen-Coder-Next任务完成率仅44.58%,甚至较基础设置出现性能倒退。SkillFlow通过结构化测试环境,对终身学习框架下的技能发现、补丁、迁移及其失效模式进行了深入实证分析。
合并独立训练的LoRA适配器是替代联合多任务训练的一种实用方案,但往往会损害性能。现有方法通常将LoRA更新量ΔW=BA视为单一对象,未区分两个LoRA矩阵的作用。我们发现合并干扰的主要来源是输出侧矩阵B:跨任务时B会重复使用少量共享方向,而A则更具任务特异性。这导致合并后的适配器过度强调共享方向,使任务特定信息丢失。我们提出Pico(输出空间预合并干扰校准),这种无需数据的方法通过在合并前缩减B矩阵的过度共享方向,并对合并后的更新量进行重缩放来实现校准。Pico可直接嵌入现有合并方法(如Task Arithmetic、TIES和TSV-M)使用。在涵盖数学、编程、金融和医疗领域的八项基准测试中,Pico相较基线方法将平均准确率提升3.4-8.3个百分点,达到最佳综合平均性能。该方法甚至使合并后的适配器表现优于使用全量任务数据训练的LoRA。这些结果表明,当分别处理两个LoRA矩阵时,合并操作能获得更好效果。
在线策略蒸馏(OPD)已成为语言模型后训练中日益重要的范式。然而,我们发现了一种普遍存在的误校准缩放定律:虽然OPD能有效提升任务准确率,却会系统性地使模型陷入严重过度自信。通过理论分析,我们将此问题归因于信息错配:教师监督基于训练时可用的特权上下文构建,而部署模型仅能依据运行时信息报告置信度。研究证明,以教师为条件的成功率通常无法作为运行时置信度的有效目标,且有益的特权上下文会引发熵坍缩和系统性乐观偏差。为此,我们提出校准感知的OPD框架CaOPD:通过模型推演估计经验置信度,以学生模型为基础的实证目标替代自报告置信度,并通过同款自蒸馏流程重构响应。多模型多领域的实验表明,CaOPD在保持竞争力的同时实现了帕累托最优校准,在分布外场景和持续学习中均展现稳健泛化能力。本研究揭示能力蒸馏并不等同于校准置信度,强调置信度应作为后训练的核心优化目标。代码地址:https://github.com/SalesforceAIResearch/CaOPD
视觉语言模型展现出卓越能力,但在组合推理方面常显不足,尤其对词序和属性绑定的处理存在明显缺陷。这一局限源于对比预训练中缺乏足够区分细微语义差异的信息化样本。尽管困难负样本挖掘提供了可行解决方案,但现有方法缺乏明确机制来指导语言要素的修改方向。本研究并未构建复杂生成架构,而是将词汇具体性确立为负样本效力的根本决定因素。实验表明,修改高具体性词汇能产生更显著的结构与视觉差异,从而提供更强的学习信号。基于此原理,我们提出ConcretePlant方法,系统化地分离并操控具象化概念。对InfoNCE损失函数的分析进一步揭示了严重的梯度失衡问题:易区分样本对在优化过程中占据不成比例的权重,限制了模型进行精细学习的有效带宽。为解决这一退化现象,我们采用边界间隔方法构建Cement损失函数,通过将心理语言学评分与样本难度相关联,动态校准训练样本对的惩罚强度。综合评估验证了这些理论主张。最终整合的Slipform框架在多项组合推理评测基准、跨模态检索、单标签与多标签线性探测任务中均达到最先进精度。
计算机使用智能体在网页导航、桌面自动化及软件交互等现实任务中快速提升,某些场景下甚至超越人类表现。然而即使任务与模型保持不变,一次成功的智能体在重复执行相同任务时仍可能失败。这引出一个根本性问题:若智能体能够成功执行某任务一次,为何无法持续稳定地复制该表现?本研究通过三个维度探究计算机使用智能体不可靠性的根源:执行过程中的随机性、任务描述的模糊性以及智能体行为的多变性。我们在OSWorld环境中通过重复执行相同任务,结合能捕捉跨设置任务级变化的配对统计检验进行分析。研究表明,可靠性既取决于任务描述方式,也受智能体跨次执行行为变化的影响。这些发现启示我们:需在重复执行中评估智能体性能,允许智能体通过交互消除任务模糊性,并优先选择跨次运行保持稳定的策略。
数学解题能力始终是检验大型语言与多模态模型推理能力的挑战性任务,然而现有基准数据集在规模、语言覆盖度和任务多样性方面存在局限。我们推出MathNet——一个高质量、大规模、多模态、多语言的奥数级数学题库,同时提供用于评估生成模型数学推理能力与嵌入系统数学检索性能的基准测试。该数据集涵盖47个国家、17种语言及近二十年的竞赛题目,包含30,676道专家编写的多领域题目及解答。除核心数据集外,我们还构建了由专家标注的数学等价题与结构相似题对组成的检索基准。 MathNet支持三大任务:(一)数学解题(二)数学感知检索(三)检索增强解题。实验表明,即使最先进的推理模型(Gemini-3.1-Pro达78.4%,GPT-5达69.3%)仍面临挑战,而嵌入模型在检索等价题目时表现不佳。我们进一步发现检索增强生成性能对检索质量高度敏感:例如DeepSeek-V3.2-Speciale通过优质检索实现最高12%的性能提升,创下基准测试最佳成绩。MathNet不仅提供规模最大的高质量奥数数据集,更开创了数学题目检索评估基准,相关资源已通过https://mathnet.mit.edu 公开释放。
近年来,端到端语音对话模型实现了自然交互。然而随着用户需求日益复杂,仅依赖对话能力的模型往往难以应对。因此引入智能体能力至关重要:通过工具调用机制,这类模型能够突破知识边界,更好地解决现实任务。但现有研究多集中于核心感知与生成能力,对工具增强扩展的探索相对有限。为弥补这一空白,我们提出VoxMind——一个为端到端语音对话模型提供完整智能体能力的集成框架。基于我们精心构建的470小时AgentChat数据集,我们引入"先思后言"机制,使模型将结构化推理内化为规划与响应生成的关键前提。此外,为缓解大规模工具集成引发的延迟瓶颈,我们提出多智能体动态工具管理架构。通过将检索任务异步委托给与主模型推理轨迹对齐的辅助智能体,该系统有效实现推理延迟与工具集规模的解耦。实验结果表明,VoxMind在智能体性能上取得显著提升:相比强基线模型,任务完成率从34.88%提升至74.57%,在语音智能体任务上超越Gemini-2.5-Pro,同时保持通用对话质量。相关源代码与数据已公开于https://github.com/MM-Speech/VoxMind。
长视野大型语言模型(LLM)智能体的根本局限在于上下文容量。随着交互时长增加,工具描述、检索记忆和原始环境反馈会不断累积,进而挤占决策所需的关键信息。与此同时,任务中获得的有效经验往往在多次执行中流失。我们认为,长视野性能并非取决于上下文长度,而在于有限上下文预算内能保留多少与决策相关的信息。本文提出通用智能体(GA)——一个围绕核心原则(上下文信息密度最大化)构建的通用自进化LLM智能体系统。GA通过四个紧密关联的组件实现这一目标:保持接口简洁的最小化原子工具集、默认仅展示高层摘要的分层按需记忆机制、将已验证任务轨迹转化为可复用标准操作流程与可执行代码的自进化模块,以及在长时执行中维持信息密度的上下文截断压缩层。在任务完成度、工具使用效率、记忆有效性、自进化能力和网页浏览等维度,GA在显著减少令牌消耗和交互次数的前提下持续领先主流智能体系统,并能随时间不断进化。项目地址:https://github.com/lsdefine/GenericAgent
当前多模态大语言模型(MLLMs)在短视频理解方面展现出卓越能力,但将长篇幅电影视频转化为具有时间锚点的精细化剧本仍面临重大挑战。本文提出创新的视频转剧本(V2S)任务,旨在生成包含角色动作、对话、表情及音频提示的层次化分场景剧本。为此,我们构建了首个由人工标注的基准数据集,并提出一种时序感知的层次化评估框架。进一步,我们推出OmniScript——一个专为长篇幅叙事理解设计的80亿参数全模态(视听)语言模型。该模型通过渐进式训练流程实现:先利用思维链监督微调进行情节与角色推理,再采用基于时序分段奖励的强化学习。大量实验表明,尽管参数规模高效,OmniScript在时序定位和多字段语义准确性方面显著超越更大规模的开源模型,并与Gemini 3-Pro等顶尖闭源模型性能相当。
基于大语言模型的智能体本应能将环境观察融入推理过程:当发现高度相关却意料之外的信息时,模型理应能主动利用这一发现。但我们证明,当前基于大语言模型的智能体并不具备这种能力,它们难以对意外信息做出反思或反应。通过在三个基准测试平台(Terminal-Bench、SWE-Bench、AppWorld)中注入完整任务解决方案,我们刻意将任务答案暴露给模型。虽然智能体在Terminal-Bench上79%-81%的测试中发现了这些方案,但仅有37%-50%的情况会实际交互或利用这些方案。这一差距在AppWorld中最为显著:智能体在超过90%的尝试中看到了"返回本任务完整解决方案"的说明文档,但实际利用该方案的尝试不足7%。研究表明,智能体缺乏我们称之为"环境好奇心"的能力:即识别并探究环境刺激中意外却相关的观察信息。我们发现了影响环境好奇心的三个主要因素:智能体框架中的可用工具、测试时计算资源以及训练数据分布。实验表明,最大化好奇心的配置方案在原始基准测试中也能取得最佳性能。然而即使经过联合优化,多数测试中智能体仍会忽略已发现的解决方案:当前智能体仅将环境用于获取预期信息,而不会据此修正策略或充分利用有效刺激。
脑信号视觉解码是计算机视觉与神经科学交叉领域的关键挑战,需要构建连接神经表征与视觉计算模型的桥梁方法。该领域的共同目标是实现可泛化的跨被试模型,而实现这一目标的主要障碍在于个体间神经表征存在显著差异,目前仍需为每位被试训练定制模型或进行单独微调。为解决这一难题,我们提出一种基于fMRI的语义视觉解码元优化方法,该方法无需微调即可泛化至新被试。仅需通过新被试少量图像-脑激活示例进行条件化输入,我们的模型便能快速推断其独特的神经编码模式,从而实现稳健高效的视觉解码。我们的方法专门针对新被试编码模型的上下文学习进行优化,并通过分层推理执行编码器反演的解码过程:首先针对多个脑区,通过构建多组刺激-响应上下文来估计各体素的视觉响应编码器参数;随后基于多体素的编码器参数与响应值构建上下文,执行聚合式功能反演。实验表明,该方法在不同视觉骨干网络上均展现出强大的跨被试、跨扫描仪泛化能力,且无需重新训练或微调。此外,该方法既不需要解剖结构对齐,也不依赖刺激重叠。这项研究为构建非侵入式脑解码的通用基础模型迈出了关键一步。
当前大多数智能体仍通过遵循人类设定的奖励规则实现"自我进化",但这种进化本质上依赖外部监督,一旦失去人类指导便会停滞。本研究旨在训练智能体获得内在元进化能力,使其能在执行任务前自主认知未知环境。 为实现这一目标,我们设计了基于任务成效的奖励机制,通过评估智能体自主构建的世界知识对下游任务成功率的提升程度来驱动进化。该奖励信号仅在训练阶段用于引导模型掌握高效探索与知识归纳的方法。在推理阶段,智能体无需外部奖励或人工指令,仅凭内部参数即可实现原生自我进化以适应未知环境。 将这种方法应用于Qwen3-30B和Seed-OSS-36B模型后,在WebVoyager和WebWalker基准测试中性能提升达20%。最令人惊讶的是,基于自主构建的世界知识,仅140亿参数的Qwen3紧凑模型甚至超越了未加持的Gemini-2.5-Flash,这为真正意义上的智能体进化建立了新范式。
游戏为开发语言模型的通用推理能力提供了引人入胜的范式,因其天然需要战略规划、概率推断和适应性决策。然而现有自我博弈方法仅依赖最终游戏结果,无法区分可迁移的推理模式与游戏特定启发式策略。我们提出的STRATAGEM方案旨在突破推理迁移的两大根本障碍:领域特定性(即习得模式始终受限于游戏语义)与语境固化(即静态游戏环境难以培养渐进式推理)。该方案通过"推理可迁移性系数"选择性强化展现抽象、领域无关推理的轨迹,同时借助"推理进化奖励"激励适应性推理能力的发展。在数学推理、通用推理和代码生成的基准测试中,实验结果表明该方法带来显著提升,尤其在需要多步推理的竞赛级数学问题上表现突出。消融研究与人工评估证实,两个组件均对可迁移推理能力的形成具有贡献。
多模态大语言模型能够准确感知跨模态的数值内容,但在处理以数字、数词、图像或音频形式呈现的相同算术问题时,却难以精确执行多位数乘法运算。由于现有基准测试通常缺乏跨模态的系统性配对实例,难以在模型家族内部及不同模型家族间进行真正的算术能力比较。为此,我们提出一个受控的多模态乘法基准测试,通过可复现生成器生成配对实例,系统化调整数字位数、数字稀疏度、表征形式(如数字符号与数词)及模态(文本、渲染图像、音频)。同时定义算术负载C作为总位数与非零位数乘积的紧凑机制化代理指标,用以替代操作步骤计数。评估结果显示,随着C值增大,准确率急剧下降,当C>100时常趋近于零。事实上,C值在不同模态和模型中均保持预测性,R平方值常大于0.5,接近基于中间算术步骤计数的复杂负载度量效果。通过感知与计算分离实验发现,多模态性能下降主要源于计算而非感知缺陷:在感知匹配校验中,即使乘法准确率下降,各模态的模型表现仍接近完美(>99%)。除测量模型失效点外,我们还探究其偏好遵循的计算流程。通过设计强制补全损失探针,对特定启发式推理前缀(包括竖式乘法、分配律分解、舍入补偿等)进行评分。实验表明分解策略在文本和视觉模态中均占优势;而针对特定启发式训练的LoRA适配器虽产生近正交更新,却导致准确率下降,表明基础模型保持着精心调校的内部路由机制。
我们推出SemanticQA评估套件,旨在评测语言模型在语义短语处理任务中的表现。该基准测试整合了现有的多词表达资源,并将其重组为统一测试平台,涵盖词汇搭配等通用语言现象,以及惯用语、名词复合词和动词结构三大细分类别。通过SemanticQA,我们对不同架构与规模的模型在抽取、分类、解析任务及序列任务组合中的表现进行评估,发现模型性能存在显著差异——尤其在需要语义推理的任务上,这揭示了不同模型在推理效能与语义理解层面的差距,为提升语言模型对复杂语义短语的理解能力提供了重要参考。SemanticQA的评估框架与数据已开源:https://github.com/jacklanda/SemanticQA。
与代码补全不同,调试需要定位故障并实施针对性修改。我们发现前沿大语言模型在调试过程中常会生成正确但过度编辑的解决方案。为评估大语言模型与精准调试的差距,我们提出精准调试基准(PDB)框架,该框架可将任意编程数据集自动转化为支持精度感知评估的调试基准。PDB通过合成经过验证的原子级缺陷并将其组合成多缺陷程序来生成含错程序。我们定义了两个创新指标:编辑级精度与缺陷级召回率,分别衡量必要修改的执行比例和已修复缺陷的覆盖范围。我们发布了两项评估基准:针对单行缺陷的PDB-Single-Hard和针对多行缺陷的PDB-Multi。实验表明,即使明确要求执行最小化调试,GPT-5.1-Codex和DeepSeek-V3.2-Thinking等前沿模型的单元测试通过率虽超过76%,但调试精度均低于45%。最后我们证实,迭代式和智能体调试策略并未显著提升精度或召回率,这凸显了重新思考代码模型后训练流程的必要性。
原生全模态大语言模型(OLLMs)已从流水线架构转向统一表示空间。然而,这种原生集成引发了一个关键但尚未被充分探索的现象:模态偏好。为填补这一空白,我们首先通过新构建的基于冲突的基准和模态选择率指标,系统量化了OLLMs的模态偏好。对十个代表性OLLMs的评估揭示了一个显著范式转变:与传统视觉语言模型(VLMs)的"文本主导"特性不同,大多数OLLMs表现出明显的视觉偏好。为深入理解其内在机制,我们进行分层探测并证明这种模态偏好并非静态存在,而是在中后层网络中逐渐显现。基于这些发现,我们利用内部信号诊断跨模态幻觉,在三个下游多模态基准测试中无需任务特定数据即达到竞争优势。本研究不仅提供了机制性解释,还为构建更可信的OLLMs提供了实用工具。代码及相关资源已开源:https://github.com/icip-cas/OmniPreference
大型语言模型(LLMs)在推理密集型研究任务中已得到广泛探索,但用于测试其能否从结构化生物医学证据中推断科学结论的资源仍然有限。我们推出MedConclusion——一个包含570万篇PubMed结构化摘要的大规模生物医学结论生成数据集。每个实例将摘要的非结论部分与作者撰写的原始结论配对,为证据到结论的推理提供自然存在的监督信号。该数据集还包含生物医学类别及SJR等期刊级元数据,支持跨生物医学领域的子群分析。作为初步研究,我们在结论生成和摘要生成两种提示设置下评估了多种LLMs,并通过基于参考指标的评估和LLM-as-a-judge方法对输出结果进行评分。研究发现:结论写作在行为模式上有别于摘要写作;强模型在当前自动指标下仍呈现紧密聚集状态;评判者身份会显著改变绝对评分。MedConclusion为研究科学证据到结论的推理提供了可复用的数据资源。代码与数据已开源:https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion。
大型语言模型(LLMs)虽在多领域展现卓越性能,却日益受限于高推理延迟。早期退出机制通过动态跳过冗余层来加速推理,已成为颇具前景的解决方案。然而在仅含解码器的架构中,早期退出的效率受到KV缓存缺失问题的严重制约——被跳过的层无法为后续令牌提供必要的历史状态。现有方案如重计算或掩码技术,或引入显著延迟开销,或导致严重精度损失,均未能弥合理论层削减与实际加速效果之间的差距。本文提出River-LLM,一种无需训练即可实现令牌级无缝早期退出的框架。该框架引入轻量级KV共享退出河,使主干网络缺失的KV缓存能在退出过程中自然生成并保留,无需昂贵恢复操作。此外,我们利用解码器块内部的状态转移相似性预测累积KV误差,以指导精准退出决策。在数学推理和代码生成任务上的大量实验表明,River-LLM在保持高质量生成结果的同时,可实现1.71至2.16倍的实际加速效果。
基因组工程已实现显著的序列层面精准调控,但预测细胞在扰动后将占据的转录组状态仍是一个悬而未决的难题。单细胞CRISPR筛选技术可测量细胞偏离未扰动状态的程度,然而这种效应强度指标忽略了一个根本问题:细胞是否协同运动?当两种扰动具有相同强度时,若其中一种驱动细胞沿共享轨迹协同移动,而另一种使细胞在表达空间中分散,则可能产生质的不同结果。我们提出了一种几何稳定性度量指标Shesha,通过计算单个细胞位移向量与平均扰动方向之间的平均余弦相似度,来量化单细胞扰动响应的方向一致性。在五个CRISPR数据集(涵盖CRISPRa、CRISPRi和混合筛选的2,200余种扰动)中,稳定性与效应强度呈强相关(Spearman ρ=0.75-0.97),经校准的跨数据集相关性达0.97。关键在于,当两种指标解耦时出现的不一致案例揭示了调控架构:如CEBPA和GATA1等多效性主调控因子需支付"几何代价",产生强度大但无序的位移;而如KLF1等谱系特异性因子则产生高度协调的响应。在控制强度变量后,几何不稳定性与分子伴侣激活水平升高独立相关(HSPA5/BiP;跨数据集偏相关系数ρ_{partial}=-0.34和-0.21),且高稳定性/高应激象限出现系统性耗竭。这种强度-稳定性关系在scGPT基础模型嵌入中持续存在,证实其是生物状态空间的固有特性而非线性投影产物。扰动稳定性为筛选中的靶点优先排序、细胞制造中的表型质量控制、以及计算机扰动预测评估提供了互补性分析维度。
大语言模型与智能体的融合正在催生科学发现的新纪元:自主科学。尽管科学方法本质上是迭代的,但现有智能体框架多为静态设计、适用范围狭窄,且缺乏从试错中学习的能力。为弥补这一鸿沟,我们推出基础演化智能体框架EvoMaster,专为规模化自主科学而构建。该框架以持续自我进化为核心驱动力,使智能体能够跨实验周期迭代优化假设、开展自我批判并逐步积累知识,真实复现人类科研探索过程。作为领域无关的基础平台,EvoMaster具备卓越的可扩展性——开发者仅需约100行代码即可为任意学科构建并部署高性能的自演化科学智能体。基于EvoMaster,我们孵化了覆盖机器学习、物理学及通用科学等领域的SciMaster生态系统。在四大权威基准(Humanity's Last Exam、MLE-Bench Lite、BrowseComp和FrontierScience)上的评估表明,EvoMaster分别取得41.1%、75.8%、73.3%和53.3%的顶尖成绩,相较通用基线OpenClaw实现+159%至+316%的相对性能提升,有力验证其作为新一代自主科学发现基础框架的有效性与普适性。EvoMaster项目地址:https://github.com/sjtu-sai-agents/EvoMaster。
近年来语义匹配技术的进步主要依赖于双编码器架构,即将DINOv2与扩散模型主干网络相结合。尽管这些拥有数十亿参数的模型精度可观,但其泛化能力在训练关键点之外表现欠佳,暴露出基准测试性能与实际应用场景之间的差距——现实应用中查询的点位往往与训练数据存在差异。基于DINOv2架构,我们提出统一模型MARCO,通过创新性训练框架同时提升细粒度定位能力与语义泛化性能。该方案采用由粗到细的优化目标提升空间精度,结合自蒸馏框架将稀疏标注监督扩展至未标注区域,从而将少量关键点转化为密集的语义一致性对应关系。MARCO在SPair-71k、AP-10K和PF-PASCAL数据集上刷新了最优成绩:细粒度定位阈值提升8.9个PCK@0.01点,对未见关键点(SPair-U +5.1)和未知类别(MP-100 +4.7)的泛化能力表现最佳,且模型体积比基于扩散的方法缩小3倍、推理速度提升10倍。代码已开源:https://github.com/visinf/MARCO。
用户在使用基于大语言模型的智能体时,常会遗漏关键细节,导致工具调用面临输入信息不完整的挑战。这对工具增强型智能体构成了根本性难题——API执行通常需要完整参数,这凸显出个性化工具调用的必要性。为研究此问题,我们提出MPT基准数据集,包含265个多轮对话,涵盖偏好记忆、偏好归纳和偏好迁移三大挑战。同时我们开发了PRefine方法,这种基于测试时记忆增强的技术将用户偏好建模为动态假设,通过生成-验证-精炼的循环从历史对话中提取可复用的约束条件,仅需完整历史提示1.24%的token量即可提升工具调用准确率。实验表明,智能体系统的强健个性化依赖于能捕捉用户选择背后逻辑的记忆机制,而非仅记录选择结果。
情感支持对话(ESC)旨在通过生成具有共情力的支持性对话来帮助处于困境中的个体。现有研究通常默认每个支持话轮仅对应单一策略,而现实中的支持性交流往往在单个话语中融合多种策略。本文通过将ESC任务重构为多策略话语生成——每个话语可包含一个或多个策略-响应对,重新审视了这一任务。我们提出两种生成方法:All-in-One(单步解码预测所有策略-响应对)和One-by-One(迭代生成策略-响应对直至完成)。两种方法均通过强化学习引导的认知推理进行增强,以优化策略选择与响应构建。我们在ESConv数据集上进行了话语级和对话级实验评估,结果表明我们的方法能有效建模多策略话语,显著提升支持质量与对话成功率。据我们所知,本研究首次系统性地实证证明了在单话语中融合多重支持策略对情感支持对话具有可行性和有效性。所有代码与数据将公开于https://github.com/aliyun/qwen-dianjin。
语言模型的可靠部署需要两种看似不同但共享几何基础的能力:预测模型是否会接受定向行为控制,以及检测其内部结构何时发生退化。我们证明,表征间距离结构一致性的几何稳定性可同时解决这两个问题。通过测量任务对齐几何稳定性的监督式Shesha变体,在35-69个嵌入模型和三项NLP任务中实现了近乎完美的线性可操控性预测准确率(ρ=0.89-0.97),其捕获的独特方差超越类别分离度指标(偏相关系数ρ=0.62-0.76)。关键分化现象显现:无监督稳定性在现实任务操控预测中完全失效(ρ≈0.10),表明任务对齐对可控性预测至关重要。然而无监督稳定性在漂移检测中表现卓越,训练后对齐过程中测量的几何变化幅度达CKA方法的近2倍(Llama模型中高达5.23倍),在73%的模型中提供更早预警,同时保持比Procrustes方法低6倍的误报率。监督与无监督稳定性共同构成了LLM部署生命周期的互补诊断工具:前者用于部署前的可控性评估,后者用于部署后的状态监测。
视觉语言模型(VLM)在临床诊断中的应用日益广泛,但其对抗攻击的鲁棒性仍鲜有研究,这构成了严重风险。现有医学攻击主要针对模型窃取或对抗性微调等次要目标,而来自自然图像的可迁移攻击会产生明显失真,易被临床医生察觉。为此,我们提出MedFocusLeak——一种高可迁移的黑盒多模态攻击方法,能在保持扰动不可感知的同时,诱导模型做出错误但临床可信的诊断。该方法通过向非诊断性背景区域注入协同扰动,并采用注意力分散机制使模型偏离病灶区域。在六种医学影像模态上的大规模评估表明,MedFocusLeak实现了最先进的攻击性能,能在不同VLM上生成具有误导性但真实的诊断输出。我们进一步提出带有新型指标的统一评估框架,可同步捕捉攻击成功率与图像保真度,揭示了现代临床VLM在推理能力上的关键缺陷。
多模态大语言模型(MLLMs)虽展现出卓越能力,但在捕捉图像中细粒度文本信息以支撑精确图像翻译方面仍存在不足,这常导致视觉文本输入与文本输入/输出间产生模态鸿沟。现有方法主要依赖指令微调,可能引发预训练知识的参数冗余,从而制约泛化性能。为此,我们提出模态神经元感知微调(MNAFT),这一新方法通过利用MLLMs中特定神经元的专业化功能来增强图像翻译能力。MNAFT通过指令驱动的激活分析,识别视觉与语言模块中的语言无关神经元和语言特定神经元,并评估其在各类翻译任务中的重要性。随后我们实施选择性微调,仅更新与目标任务相关的选定层中语言特定及语言无关神经元的参数,同时保留其他神经元和层中已编码的知识。在多个基准测试上的广泛实验表明,MNAFT显著优于当前最先进的图像翻译方法,包括级联模型、标准全参数微调及参数高效调优技术。此外,我们通过神经元激活可视化与聚类模式分析等系统性研究,揭示了不同神经元群在协调跨模态理解与促进精准语言特定翻译中的作用机制。
理解和预测与漏洞相关的活动是网络安全威胁情报领域的重大挑战。本研究探讨了漏洞观测数据(如概念验证发布、检测规则模板或在线讨论)能否随时间推移进行预测。基于我们早前开发的VLAI模型——一种通过文本描述预测漏洞严重性的Transformer架构模型,我们重点检验了将严重性评分作为外生变量是否能提升时间序列预测效果。我们评估了多种针对单个漏洞短期观测频次预测的方法:首先测试了采用/未采用log(x+1)变换及VLAI严重性输入的SARIMAX模型,尽管这些调整带来的改进有限,但SARIMAX模型仍难以适应稀疏、短暂且突发性强的漏洞数据特性,其预测常产生过宽的置信区间甚至不合理的负值。为更好捕捉观测数据的离散性和事件驱动特征,我们继而探索了泊松回归等计数方法。初步结果表明,尤其在按周聚合观测数据时,这类模型能产生更稳定且可解释的预测结果。我们还讨论了更简化的操作方案,如针对短期预测窗口的指数衰减函数,可在缺乏长期历史序列的情况下估算未来活动水平。总体而言,本研究既揭示了预测罕见突发网络事件的潜力与局限,也为将预测分析融入漏洞情报工作流提供了实用指导。
全双工语音语言模型(FD-SLMs)能够实现实时重叠的对话交互,相比传统半双工模型提供更具动态性的用户体验。然而,现有基准主要关注单轮交互评估,忽略了多轮对话的复杂性。在多轮场景下评估FD-SLMs面临重大挑战,包括对话轮次边界模糊和模型推理中的上下文不一致问题。同时,现有基准往往仅聚焦对话特征评估,忽略了其他关键维度。为弥补这些不足,我们提出MTR-DuplexBench——一个专为FD-SLMs多轮综合评估设计的新型基准。该基准不仅将连续全双工对话分割为离散轮次进行逐轮评估,还整合了对话特征、对话质量、指令遵循能力和安全性等多维评价指标。实验结果表明,现有FD-SLMs在维持多轮次、多维度性能一致性方面存在困难,这验证了本基准的必要性与有效性。代码与数据详见:https://github.com/ZhangHe0918/MTR-DuplexBench
我们推出Forge-UGC(面向通用图编译的FX优化与寄存器图引擎),这是一款专为异质加速器硬件部署Transformer设计的四阶段编译器,已在英特尔AI Boost NPU上完成验证。与OpenVINO和ONNX Runtime等现有框架常采用不透明的编译流水线、有限的通道级可见性及弱缓冲区管理(导致更高编译成本和运行时开销)不同,Forge-UGC通过硬件无关的设计解决了这些问题,将图捕获、优化、中间表示降阶和后端调度进行分离。第一阶段通过torch.export在ATen算子层级捕获计算图,原生支持旋转位置编码、分组查询注意力及SwiGLU等现代Transformer组件而无需手动分解。第二阶段应用六种优化通道:死代码消除、公共子表达式消除、常量折叠、注意力融合、算子融合及布局优化,使图节点数量减少14.2%至21.9%。第三阶段将优化后的图降阶为带有显式虚拟寄存器分配的强类型中间表示。第四阶段执行活跃性分析、线性扫描缓冲区分配(峰值缓冲区数量降低30%至48%)以及设备亲和性调度(NPU-CPU交互次数减少42%至65%)。在涵盖1.25亿至80亿参数的六个模型系列上,基于WikiText-103和GLUE的评估表明:相较于OpenVINO和ONNX Runtime,Forge-UGC编译速度提升6.9至9.2倍,推理延迟降低18.2%至35.7%,单次推理能耗下降30.2%至40.9%。模型保真度得到保持,最大绝对逻辑值差异低于2.1e-5,KL散度低于8.4e-9。我们还提出融合增益比、编译效率指数及逐通道执行分析三项指标,用于系统化评估NPU编译流水线性能。
基因型与环境互作(GxE)通过影响基因型在不同环境中的表现,降低了目标环境下表型预测的准确性。深入解析GxE互作机制有助于揭示遗传优势或缺陷在特定环境条件下如何被表达或抑制,从而指导遗传选择并优化育种策略。本文重点介绍两种GxE互作研究模型:其一是基于混合效应模型的显著性分析,用于判定基因或GxE互作是否对表型性状产生显著影响;其二是稳定性分析,深入探究基因与环境间的交互关系以及基因型在不同环境中的相对优劣。此外,本文推出由作者团队开发的轻量级交互工具RGxEStat,该工具集成上述模型的构建、求解与可视化功能,旨在使育种家和农学家无需学习复杂的SAS或R编程即可通过友好界面实现高效育种数据分析,显著加速研究周期。代码与数据集详见https://github.com/mason-ching/RGxEStat。
我们提出JuRe(仅修复)——一种用于时间序列异常检测的极简去噪网络,其核心发现表明:当训练目标正确实现流形投影原则时,复杂的网络架构并非必要。JuRe仅包含一个隐藏维度为128的深度可分离卷积残差块,通过修复被破坏的时间序列窗口进行训练,并在推理时采用无参数的固定结构差异函数进行评分。尽管未使用注意力机制、潜变量或对抗组件,该模型在TSB-AD多变量基准测试中(AUC-PR 0.404,180个序列,17个数据集)位列第二,在UCR单变量档案库的AUC-PR指标上(0.198,250个序列)同样排名第二,且在AUC-PR和VUS-PR指标上领先所有神经网络基线。TSB-AD上的组件消融实验表明训练时引入数据破坏是主导因素(移除该组件导致ΔAUC-PR=0.047),证实驱动检测质量的是去噪目标而非网络容量。基于TSB-AD的成对Wilcoxon符号秩检验显示,在25个基线方法中有21个与JuRe存在统计显著性差异。代码已发布于https://github.com/iis-esslingen/JuRe。
我们发布Terminal Wrench基准环境集,该数据集包含331个终端智能体测试环境,复刻自主流开放基准中已被证实存在奖励机制漏洞的案例。数据集涵盖三大前沿模型(Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4)的3,632条攻击轨迹与2,352条合法基线轨迹。每条记录均保留原始任务定义及完整攻击路径,展示验证机制被绕过的具体过程,同时包含任务未按预期解决的案例。任务范围涉及系统管理、机器学习、软件工程及安全挑战,攻击手段从简单的输出欺骗到堆栈帧内省、标准库修补乃至根套件式二进制劫持。关键之处在于,这些漏洞利用均针对具体任务而非评估框架,从而更难被修复。我们还开展了可监测性研究:通过净化攻击轨迹或删除推理链,由LLM评判员进行评分,结果显示移除思维链后检测效能显著下降(AUC从0.97降至0.92)。数据集已公开于https://github.com/few-sh/terminal-wrench。
人工智能领域最核心的架构问题并非模型规模,而是缺乏承载模型认知延续性的结构层。会话会终止,上下文窗口会饱和,记忆接口返回的扁平化数据迫使模型每次读取时都需重新解析。这导致智能体在单次会话中表现卓越,却无法实现跨时间维度的记忆延续。本文主张:解决这一问题的连续性层级是本领域尚未构建但最具影响力的基础设施,其工程实践已进入公开实施阶段。 针对该特性的正式评估框架ATANT基准(arXiv:2604.06710)已单独发布,包含对250篇故事集的评测结果;配套论文(arXiv:2604.10981)将该框架与现有记忆、长上下文及智能体记忆基准进行对比。本文明确定义连续性作为系统属性的七大特征(区别于记忆与检索功能);阐述通过写时分解与读时重构实现该特性的存储原语(解构轨迹收敛记忆);将工程架构映射至神学的虚己模式与符号学的阿尔法-欧米伽范式,论证这种映射属于结构同构而非隐喻类比;提出从外部SDK到硬件节点再到长期人类基础设施的四层发展路径;解析当前制约模型层的物理极限如何凸显连续性层的关键意义;并论证治理架构(以物理机制而非政策条款实现隐私保护,创始人通过不可协商的架构承诺持有特别股权)与产品本体不可分割。
场景图表示通过建模物体及其关系实现结构化视觉理解,已被广泛应用于多视角和三维场景推理。现有方法如MSG通过对比学习和基于注意力的关联在欧几里得空间中学习场景图嵌入。然而,欧几里得几何无法显式捕捉场景与物体之间的层次蕴含关系,限制了所学表示的结构一致性。为此,我们提出双曲场景图(HSG),在双曲空间中学习场景图嵌入,该空间通过几何距离自然编码层次关系。实验结果表明,HSG在保持强大检索性能的同时提升了层次结构质量。图级指标提升最为显著:HSG实现了33.17的PP IoU和最高的33.51图IoU,较最佳AoMSG变体(25.37)提升8.14,彰显了双曲表示学习在场景图建模中的有效性。代码地址:https://github.com/AIGeeksGroup/HSG。
仅解码器架构的大语言模型正日益取代BERT式架构成为稠密检索的核心,在实现显著性能提升和广泛采用的同时,其鲁棒性研究仍存空白。本文首次从泛化性与稳定性两个互补视角,对基于前沿开源大语言的稠密检索模型进行系统性鲁棒性研究。在泛化性方面,我们通过涵盖30个数据集的四个基准测试评估检索效果,采用线性混合效应模型估算边际平均性能,以区分模型内在能力与数据集异质性。分析表明:虽然指令微调模型总体表现优异,但针对复杂推理优化的模型往往承受"专业化代价",在更广泛场景中泛化能力有限。在稳定性方面,我们评估模型对非意图性查询变异(如转述、拼写错误)和恶意对抗攻击(如语料库投毒)的抵御能力。研究发现:与仅编码器基线相比,基于大语言的检索模型对拼写错误和语料库投毒展现出更强鲁棒性,但对同义替换等语义扰动仍显脆弱。进一步分析揭示:嵌入几何特征(如角度均匀性)可为词汇稳定性提供预测信号,且模型规模扩展通常能提升鲁棒性。这些发现为未来鲁棒性感知的检索器设计和原则性基准测试提供了指导。代码已开源:https://github.com/liyongkang123/Robust_LLM_Retriever_Eval。
我们推出首版KWBench(知识工作台)——一个专注于大语言模型无提示问题识别能力的基准测试框架:评估LLM能否在尝试解决问题前先识别出专业场景。现有前沿基准测试已趋饱和,且当前多数知识工作评估简化为依据规范进行信息提取或任务完成。KWBench瞄准的是前置环节:仅从原始输入中识别情境的核心治理结构。 该基准包含223项任务,源自采购、合同谈判、临床药学、组织政治、欺诈分析和激励机制设计等领域的从业者实践。每项任务均编码了形式化的博弈论模式(委托代理冲突、信号传递、机制设计失效、策略性隐瞒、联盟动态、战略互依),并携带结构化标注数据,记录专家对情境的解读及预期失效模式。模型接收原始数据和无问题类型提示的任务指令,评分采用包含强制合取条件的三级量规,强制标准编码了预测的错误路径。 我们对16个模型进行评估,最佳模型仅通过27.9%的任务。前两名模型在通过任务中仅有31.7%的一致性。前八名模型中,44项任务仅被单一模型解决;采用前八名模型协同路由可覆盖基准50.7%的任务,近乎最佳单模型的两倍。在通过测试的条件下,各模型质量得分趋同(约83%);但无条件得分差异显著。同一模型在被询问时可正确阐述相关博弈论概念,却在无提示时无法自主应用。我们发布KWBench以革新知识工作的前沿模型评估方式,重点考察模型能否仅凭情境自主识别正确问题,而非仅衡量其在问题被明确框定后的执行能力。
通过工具与环境交互的AI智能体能够实现强大的应用,但在高风险商业场景中,意外行为可能导致无法承受的损害,如隐私泄露和财务损失。现有改进方案(如基于训练的方法和神经护栏)虽能提升智能体可靠性,但无法提供确定性保障。我们研究将符号化护栏作为实现AI智能体强安全性与安全性保障的可行路径。这项三部分研究包括:对80个最先进的智能体安全基准进行系统回顾以识别其评估策略;分析哪些策略要求可通过符号化护栏实现保障;在τ²-Bench、CAR-bench和MedAgentBench上评估符号化护栏对安全性、安全性及智能体成功率的影响。研究发现85%的基准测试缺乏具体策略,仅依赖未明确规范的高层目标或常识。在已明确的策略中,74%的策略要求可通过符号化护栏强制执行,且常采用简单低成本的机制。这些护栏在提升安全性的同时不会牺牲智能体效用。总体而言,我们的结果表明符号化护栏是保障特定安全需求的实用有效方法,尤其适用于领域专用AI智能体。所有代码与实验材料已发布于https://github.com/hyn0027/agent-symbolic-guardrails。
知识蒸馏是一种广泛采用的技术,用于将大型语言模型的能力迁移至更小巧、高效的学生模型。然而,未经授权的知识蒸馏行为不正当地利用了开发前沿模型所投入的巨大努力与成本。我们研究通过修改教师模型生成的推理轨迹来实现两个遏制非法蒸馏的目标:(1)抗蒸馏,即降低查询响应在训练中的可用性;(2)API水印技术,在学生模型中嵌入可验证的签名。我们提出多种动态重写教师模型推理输出的方法,在保持答案正确性与语义连贯性的同时,其中两种方法利用大型语言模型的重写能力,其他则采用基于梯度的技术。实验表明,基于简单指令的重写方法在维持甚至提升教师模型性能的同时,能实现显著的抗蒸馏效果。此外,我们的重写方法还能嵌入可被可靠检测的水印,且基本不会产生误报。代码已开源:https://github.com/xhOwenMa/trace-rewriting。