每日精选AI研究论文及翻译
用于交互式视频生成的世界模型主要聚焦于单智能体场景,即通过单一控制信号生成未来观测结果。然而,许多生成环境需要多智能体交互:多个玩家、机器人或具身智能体在同一共享空间中同时行动。将世界模型扩展到此类场景需要设计具有原则性的多智能体架构:智能体应保持独立可控性、置换对称性,并在确保时间与视角一致性的同时支持高效推理。本文提出面向交互式仿真的生成式多智能体世界模型。该模型引入简化旋转智能体编码(Simplex Rotary Agent Encoding),这是3D RoPE的一种无参数扩展,将智能体表示为旋转角度空间中规则单纯形的顶点。这赋予每个智能体独特相位,同时使所有智能体置换等价,从而无需学习逐个槽位的身份标识或固定智能体顺序即可实现可扩展的智能体识别。为避免跨智能体的密集全连接注意力,我们进一步提出稀疏中心注意力(Sparse Hub Attention),通过可学习的中心令牌中介跨智能体的令牌交互,将跨智能体注意力计算复杂度从智能体数量的二次方降至线性。为支持实时推演,我们将全上下文扩散教师模型蒸馏为因果学生模型,该学生模型通过KV缓存顺序生成时间块,实现每秒24帧的动作响应式生成。在多玩家虚拟环境中的实验表明,与基于槽位和密集注意力的基线方法相比,本模型在视频保真度、动作可控性和智能体间一致性上均有提升,且无需额外训练即可从两玩家泛化至四玩家场景。
主动推荐系统(PRS)旨在通过生成中间推荐路径,引导用户偏好向目标项目转变。强化学习(RL)为优化此类序列决策任务提供了原则性框架,因为路径奖励可以自然兼顾短期接受度与长期引导效果。然而,将策略梯度直接应用于PRS会导致梯度估计存在缺陷。我们识别出两个缺陷:(1)路径级奖励分解为具有正均值的步骤级奖励,产生长度依赖性偏差,使梯度倾向于延长路径而非进行有意义的探索;(2)用整个路径级奖励对每一步进行加权忽略了分解结构,导致梯度方差过高。为修正这两个缺陷,我们提出了一种高效的RL框架ProRL,其中包含两个用于主动推荐的新机制。首先,步骤级奖励中心化通过减去期望奖励来消除长度依赖性偏差,确保路径延长产生零期望梯度信号。其次,位置特定优势估计利用奖励分解结构计算步骤相关的基线,降低梯度方差。这些机制共同生成精准针对路径质量的策略梯度。我们在三个真实数据集上的实验表明,ProRL显著优于现有最先进的PRS。我们的代码已开源至 https://github.com/hongruhou89/ProRL。
具备扩展推理能力的视觉-语言模型能够解决复杂问题,但许多现实世界的问题需要依赖外部工具,而仅靠内部推理往往无法解决。因此,智能体推理将两种行为以结构性不对称的方式交织在一起:思考(默认的自包含行为)与工具使用(一种高方差辅助性行为)。我们将这种不对称称为“思考-行动鸿沟”。在诸如GRPO等标准强化学习策略下,这一鸿沟会在训练中表现为两个诊断性症状:工具使用仅出现在约30%的展开中,而当尝试使用时,分组中约40%的问题对应的工具使用展开全部错误,从而抑制了本应作用于工具调用的学习信号。我们提出AXPO(智能体探索式策略优化):对于每个全部错误的工具使用子组,AXPO固定思考前缀,重新采样工具调用及其后续内容,并辅以基于不确定性的前缀选择。在九个多模态基准测试和三个规模的Qwen3-VL-Thinking模型上,SFT+AXPO在平均性能上优于SFT+GRPO(8B模型平均Pass@1提升1.8个百分点,Pass@4提升1.8个百分点),并且8B规模的SFT+AXPO在Pass@4上超越了32B基础模型,参数量仅为后者的四分之一。
当前视觉语言模型通常通过多阶段对齐,将独立的图像编码器和语言解码器拼接在一起,这种模块化框架不可避免地导致像素级信号在帧间碎片化,并使早期像素-词汇交互分散。与此同时,原生视觉语言模型虽然在单张图像上表现优异,但在多图像、视频理解及空间智能方面仍鲜有探索。为此,我们提出NEO-ov——一种原生基础模型,无需任何外部编码器、辅助适配器或事后融合,即可端到端地学习跨帧与像素-词汇对应关系。通过彻底消除模块边界,NEO-ov使模型内部自然涌现细粒度且统一的时空建模能力。值得注意的是,NEO-ov在精细视觉感知方面表现卓越,同时大幅缩小了与模块化方案的性能差距,验证了原生"单视觉"架构不仅可行,更可在规模化下具备竞争力。除实证性能外,我们系统揭示了架构分析细节与详细训练方案,以推动后续原生多模态建模发展。相关代码与模型已开源发布:https://github.com/EvolvingLMMs-Lab/NEO。
搜索已被提出作为一种有效的方法,用于自我改进的语言模型和智能体系统,既可用于训练后样本生成,也可用于推理。然而,广泛使用的方法(如最佳N采样和树搜索)面临两个根本性局限:它们由稀疏的验证信号引导,并且主要通过自回归扩展构建候选解,从而将探索限制在模型概率质量较高的区域内。为解决这些问题,我们提出了双向进化搜索(BES),这是一个将前向候选解进化与后向目标分解相结合的搜索框架。在前向搜索中,BES通过进化算子增强标准扩展,这些算子重组部分轨迹以生成难以通过单次模型展开获得的候选解。在后向搜索中,BES递归地将原始任务分解为可检查的子目标,产生密集的中间反馈以指导前向搜索。我们提供了理论动机,表明仅通过扩展搜索生成的候选解被限制在狭窄的熵壳内,而进化算子可以逃离该熵壳,并且后向搜索可以指数级减少找到正确答案所需的样本数量。实验表明,在主流训练后算法无法改进的具有挑战性的训练后任务上,BES能够实现持续的增益;在推理时的三个开放式问题求解基准测试中,BES在平均性能和最佳性能方面均优于现有的开源框架。代码和训练好的模型可在 https://github.com/Embodied-Minds-Lab/BES 获取。
数学前沿由那些尚未有解的难题所界定,但目前尚不清楚语言模型能否在没有人类干预的情况下有意义地应对这类问题。一个主要障碍是缺乏大规模的研究级数学数据集。为此,我们引入了 ResearchMath-14k,这是一个通过多智能体流水线从学术资源中精选出 14,056 道题目的集合,使其成为迄今为止规模最大的研究级数学问题数据集。我们进一步生成了 ResearchMath-Reasoning,即来自两个开放模型的 22 万条教师轨迹,其中我们观察到诸如未尝试和编造引用等反复出现的回避行为。有趣的是,在八个开放权重模型中,新一代模型每条轨迹产生的引用数量是之前的 5.6 倍,虚假引用数量是之前的 5.0 倍。在对 ResearchMath-Reasoning 进行智能体过滤后,对 4B 至 30B 参数的 Qwen3 模型进行微调,其平均性能比基础模型提高了 9.2 个点。这表明,即使没有完全正确的推理轨迹,经过筛选的开放问题尝试也能提供有用的监督。我们公开发布 ResearchMath-14k,以供未来研究级数学推理相关工作使用。
强化学习已成为推动大语言模型推理能力提升的核心范式,然而现有方法大多仍依赖更强的教师模型或精心设计的困难数据集,限制了能力的可扩展性改进。本文提出DenoiseRL——一种强化学习框架,通过基于弱模型失败案例的恢复导向优化来替代外部监督。DenoiseRL不依赖更强的监督或精心设计的数据,而是直接从错误的推理轨迹中学习,将其转化为改进机遇,从而使训练更具可扩展性且减少对外部资源的依赖。这种方法产生更丰富、更多样的学习信号,提升了从非完美模型行为中进行探索的效率。因此,DenoiseRL在提高推理性能和整体训练效率的同时,减少了对昂贵数据整理或更强教师模型的需求。实验表明,在具有挑战性的数学和通用推理基准测试中,DenoiseRL持续优于强在线策略强化学习基线,并且随着训练难度增加促进了更强的自我纠错行为,为大语言模型推理能力的提升提供了一条有效且可扩展的替代路径。
具身视觉语言模型(VLMs)在机器人领域,尤其是视觉-语言-动作框架中,已展现出卓越的性能与泛化能力。然而,标准文本引导预训练范式所注重的语义高层理解,与具身环境中执行任务所需的关键空间与物理知识(属于低层信息)之间仍存在显著鸿沟。本文提出GEM(生成式监督具身视觉语言模型),旨在弥合这一差距。我们创新性地将深度图生成任务直接融入VLM预训练阶段,通过联合训练该生成目标与主模型,观察到具身智能的显著提升——语义理解能力与物理操作能力均得到增强。为支撑该范式,我们整理并发布了GEM-4M数据集,这是一个包含大规模混合型数据(涵盖定位、推理与规划任务,并配以高质量深度监督)的综合数据集。大量实验表明,GEM在多个具身基准测试中达到最先进水平。此外,我们部署的动作模型GEM-VLA在仿真环境与真实世界评估中均展现出极其优越的任务执行能力。代码、模型及数据集已开源至https://zhaorw02.github.io/GEM/。
记忆对于使大型语言模型支持长程推理至关重要,然而现有记忆系统仍不可靠且难以调试。追踪记忆的动态演化对于理解信息如何随时间合成、传播或损坏至关重要。本文研究了LLM记忆系统中错误追踪与归因这一新问题。我们提出了一种新颖框架,将记忆流水线转化为可执行的记忆演化图,实现对操作信息流的细粒度追踪。进而构建了MemTraceBench基准测试集,该数据集来源于长上下文、RAG、Mem0和EverMemOS等代表性记忆系统,用于系统研究记忆失效模式。我们进一步提出一种自动归因方法,通过迭代追踪操作子图来精确定位任何失败案例的根本原因。分析表明,记忆失效具有系统性,源于信息丢失和检索错位等操作层面问题。关键的是,我们利用这些细粒度归因信号指导下游提示词优化,构建了自动纠正错误的闭环系统,将端到端任务性能提升高达7.62%。代码将在https://github.com/zjunlp/MemTrace发布。
计算机使用智能体(CUAs)近期取得了显著进展,但为每个软件领域部署独立的大规模专家模型仍成本高昂。小型开放计算机使用智能体作为更实用的专业化目标,其能力仍显著薄弱,且存在不均匀的领域特定失败。一个直接的补救措施是为目标领域合成大规模训练数据,但我们发现这种朴素方法仅能带来微小改进。基于这一观察,我们提出LearnWeak——一个针对小型计算机使用智能体的零标注专业化框架,它利用更强的参考智能体识别学生模型在目标领域的弱点,合成针对性任务并自动构建监督信号。LearnWeak进一步引入了一种错误感知的专业化目标,将规划错误与执行错误分离开来,从而能够实现比宽泛统一监督更具行为精确性的更新。在OSWorld上,LearnWeak在八个领域相比EvoCUA-8B和OpenCUA-7B分别实现了平均11.6和11.1个百分点的提升。我们还验证了,我们的学生感知数据集生成及训练方法优于现有的自主轨迹生成及训练基线。我们的工作强调了在学生感知在数据合成与智能体训练中的重要性,为在多样化领域中实现小型计算机使用智能体的更规范、更高效的专业化指明了方向。
自主研究智能体能够生成有竞争力的解决方案和专业水准的手稿,但其输出中却存在表面评估难以察觉的可验证性缺陷:伪造引用、不可复现的分数,以及与方法实现不符的描述。针对这一问题,我们通过三项贡献加以解决。首先,提出证据链框架,要求每项主张都能追溯至其证据来源。其次,开发科学家壹号系统,这是一个端到端的自主研究系统,在文献综述、方案发现和论文撰写全流程中通过设计维持证据链条。第三,建立证据链审计机制,这是一项事后审计方法,其四项完整性检查——分数验证、规范违背、引用验证与方法-代码一致性——统一适用于所有系统。在涵盖五个系统和五项前沿研究任务的75篇论文中,每个基线系统均表现出至少一种系统性失效模式:幻影引用率高达21%,通过分数验证的论文仅占42%,方法-代码一致性介于20%至80%之间。而科学家壹号系统实现了零幻影引用(0/337)、完美的分数验证(12/12)以及最高的方法-代码一致性(14/15),同时在全部五项任务上达到或超越人类专家表现。此外,科学家壹号系统还成功泛化至医学影像、细粒度识别、三维感知及语言建模等六项额外任务,在参数高尔夫任务中取得最佳结果,并在基线系统完全失败的机器学习基准挑战任务中斩获金牌。
AI研究代理如今能够生成研究思路、设计实验、运行代码以及撰写论文,这为大规模AI辅助科学发现带来了可能性。当前许多代理框架明确鼓励生成新颖且具有高影响力的想法。然而,AI辅助构思究竟是拓展了科学探索的广度,还是主要集中于现有工作领域,仍不明确。我们将AI研究代理视为科学搜索系统进行研究。利用四个AI研究代理框架和六个大型语言模型,我们从AI及机器学习领域中按引用定义的研究方向共享的种子文献出发,生成了37,802个科学思路。随后,我们将生成的AI思路与同一研究领域的人类作者论文、基于相同种子文献衍生的人类后续研究以及种子文献本身进行对比。实验结果显示出一致的四个特征。其一,AI生成的思路比同一研究领域的人类作者论文更为集中。其二,AI生成的思路相较于人类后续工作,更贴近其起始文献。其三,与AI生成思路最相似的论文往往后续引用率较低。其四,当AI生成思路与先前工作存在差异时,这种差异主要源于对现有技术方法的重新组合,而非引入根本性的新研究问题。总体而言,当前的AI研究代理似乎更擅长局部细化,而非拓展科学探索的广度。
现有基于记忆增强的大语言模型智能体通常将记忆视为静态存储库,采用预定义表示和固定检索流水线,这在动态智能体环境中显得脆弱——因为反馈、任务变化及异构信号会持续重塑应该记住什么以及如何建立记忆间的关联。为此,我们提出FluxMem——一种连接演化的记忆框架,将记忆构建为异构图表征,并通过三个阶段逐步优化其拓扑结构:初始连接形成、反馈驱动优化和长期巩固。在执行过程中,FluxMem修复缺失连接、剪除干扰、对齐抽象粒度,并将重复发生的成功轨迹提炼为可复用的程序化回路,整个过程受记忆泛化性和演化成熟度两项指标引导。在LoCoMo、Mind2Web和GAIA这三个本质差异显著的基准测试中,FluxMem均取得了持续最优性能,展现出在复杂智能体环境中强大的适应与泛化能力。相关代码将开源至https://github.com/zjunlp/LightMem。
因果Transformer语言模型受限于严格顺序解码和每次注意力步骤的二次方成本。尽管线性时间因果模型和离散扩散模型各自解决了这些弱点,但它们的整合存在固有矛盾:扩散需要双向注意力,而因果模型是单向的。为统一这些架构,我们提出B³D-RWKV,这是一种扩散RWKV变体,通过三元组块布局方法,将模型的O(L)推理效率与并行双向离散扩散相结合。B³D-RWKV-7.2B在8任务套件上达到了与现有模型相当的准确率,同时在解码吞吐量上显著优于基线模型,平均加速1.6倍。
智能体技能通过将可复用的程序性知识存储在结构化文件中,为将大语言模型适应特定领域提供了一种轻量化方式。然而,无论是从第三方下载还是自行生成,这些技能往往存在不可靠、不完整或过时的问题。现有的技能进化方法通常通过启发式反思来弥补这些不足,但缺乏明确的优化框架。本文提出SkillGrad,一个受梯度下降启发的智能体技能优化框架。SkillGrad将技能包视为待优化的结构化参数,采用梯度下降方式:任务执行提供轨迹级别的损失证据,自动诊断则提供指示修正方向的文本式梯度。为稳定跨迭代的优化过程,一个动量代理将重复出现的诊断模式累积到持久记忆覆盖层中。最后,基于大语言模型的修补器通过对技能包进行层感知编辑来执行参数更新。在SpreadsheetBench Verified和WikiTableQuestions上的评估表明,SkillGrad在两种基础大语言模型上始终优于基于训练的技能进化基线,平均比最强的训练基线高出6.7个百分点。消融实验进一步显示,动量机制和对比诊断均对最终技能质量有贡献。
扩散变换器在视频生成中取得了优异的质量,但全注意力的二次方成本限制了效率。我们提出OSP-Next,一种高效文本到视频生成模型,集成了稀疏注意力、并行化、量化与强化学习。OSP-Next采用混合全-稀疏注意力架构,其中稀疏部分通过Skiparse-2D注意力实现。该固定模式机制沿空间维度施加逐令牌与逐组稀疏注意力,在利用局部性的同时保持与FlashAttention内核的原生兼容性。基于Skiparse-2D注意力中重排的局部等价性,我们进一步提出稀疏序列并行(SSP),该策略将子序列分布到多个计算节点,并通过单次全对全通信切换稀疏模式。与尤利西斯序列并行(SP)相比,SSP为稀疏注意力提供了原生并行策略,并将通信量减少75%。OSP-Next还引入HiF8量化,实现8比特量化下的稳定联合训练与稀疏微调,并应用Mix-GRPO后训练以提升稀疏模型性能。实验表明,OSP-Next的VBench总得分达83.73%,超越Wan2.1基线。在5秒720P与5秒768P设置下,OSP-Next在NVIDIA H200 GPU上分别实现最高1.64倍单GPU加速与超过1.52倍八GPU加速。此外,在单个昇腾950PR上,OSP-Next-HiF8在两种设置下仅以0.4%的VBench总得分损失,便实现1.69倍与2.27倍加速,展示了OSP-Next跨硬件平台的效率与性能。
尽管多模态大语言模型在构建图形用户界面(GUI)智能体方面取得了快速进展,但其在真实场景中的任务完成能力从根本上受到缺乏GUI操作世界知识的制约。现有解决方案通常依赖于昂贵的多智能体架构或传统的后训练范式(如监督微调(SFT)和强化学习(RL))。然而,后训练仅能让智能体通过行为标注或奖励信号隐式吸收世界知识,导致低效的轨迹记忆而非真正理解。因此,亟需一种能够显式学习此类知识的方法。为此,我们提出GUI-CIDER,一种通过因果内化与密度感知样例重选实现显式内化GUI世界知识的中期训练方法。GUI-CIDER包含三个阶段:(1)数据合成,从GUI轨迹中提炼静态规划知识与动态因果知识并将其转化为文本;(2)样例重选,通过奖励因果结构、惩罚语义冗余来筛选语料库;(3)中期训练,利用精炼数据嵌入所获取的知识。在两个GUI知识基准测试和三个任务完成基准测试上的大量实验表明,GUI-CIDER能够持续提升智能体对GUI操作的理解能力及其任务成功率。代码已开源:https://github.com/Wuzheng02/GUI-CIDER。
近期,面向大语言模型(LLMs)的在线强化学习(RL)进展已在复杂推理任务中展现出令人期待的性能。然而,这些方法常呈现探索-利用权衡失衡的问题,导致优化不稳定且性能次优。我们提出IB-Score——一种基于信息瓶颈理论的新型度量指标,通过量化步骤级推理多样性与正确答案共享互信息之间的权衡,评估策略的探索-利用平衡性。基于IB-Score的分析表明,采用常见正则化项的流行在线RL方法(如GRPO)在训练过程中无法持续维持平衡,导致次优结果。为解决此问题,我们提出信息瓶颈驱动的树基策略优化(IB-TPO),这是一个原则性框架,将IB-Score作为细粒度优化目标,并采用新颖的IB引导树采样策略——该策略不仅能在相同token预算下提升在线采样效率(多生成50%的轨迹),还能复用树结构实现高效的IB-Score蒙特卡洛估计。在标准基准上的大量实验表明,我们的方法相比GRPO基线显著提升2.9%至3.6%,同时优于其他主流在线RL方法。代码已开源:https://github.com/alibaba/EfficientRL。
端到端自动驾驶中,视觉-语言-动作(VLA)模型需在高保真轨迹规划与高效推理之间达成微妙平衡。现有范式普遍存在不足:自回归(AR)型VLA在边缘硬件上受限于内存带宽,且易出现暴露偏差漂移;而全序列扩散模型则无法复用KV缓存,并存在违反"感知-规划"因果关系的"逻辑泄漏"问题。我们提出Fast-dDrive——一种在语义单元内进行双向精炼、同时跨单元强制执行严格因果顺序的块扩散VLA模型。基于驾驶VLA常输出结构化JSON格式的观察,Fast-dDrive将结构标记冻结为段落脚手架,并采用段落感知训练策略优先处理安全关键规划。我们进一步提出"脚手架推测解码"技术,以显著更高吞吐量实现与AR模型相当的质量。最后,我们设计一种低开销测试时扩展方案:通过从单一共享前缀KV缓存中分叉出N条随机轨迹展开并取平均,在极小计算开销下有效抑制预测方差。实验结果表明,Fast-dDrive重新定义了驾驶智能体的速度-精度前沿。在WOD-E2E测试集上,Fast-dDrive在3秒和5秒平均位移误差(ADE)指标上达到最高水平,且基于扩散的VLA中获得最高相对频率得分(RFS);在nuScenes数据集上,平均L2误差降至0.32米(提升22%)。与SGLang集成后,该框架相较AR基线实现12倍吞吐量提升,缩小了高容量VLA与实时车载部署效率需求间的差距。
长寿命AI代理正越来越多地被部署为持续性运行系统,但其评估方式仍停留在如同刚初始化的模型阶段。首日基准测试忽略了一个基本的系统问题:代理在部署后能保持多长时间的可靠性?即使模型权重被冻结,代理的有效状态也会持续变化——它会压缩交互历史、从不断增长的记忆库中检索信息、根据更新修正事实,并经历常规维护。因此,可靠性成为整个代理框架的生命周期属性,而不仅仅是基础模型的快照属性。我们提出AgingBench,一个用于代理寿命工程的纵向可靠性基准:不仅衡量部署后的代理是否退化,还衡量退化的具体形式以及修复应针对哪些环节。AgingBench将代理老化归纳为四种机制:压缩老化、干扰老化、修订老化和维护老化。为诊断这些失效,AgingBench采用时间依赖图与配对反事实探针,生成针对记忆管道的写入、检索和利用阶段的诊断画像。通过7个场景、14个模型、多种记忆策略,以及运行器控制和自主代理两种类型,在约400次运行(涵盖8至200个会话)中观察到:代理老化并非单一维度——行为测试可能保持良好,而事实精度却会下降;派生状态跟踪可能在同一模型内急剧崩溃;对于同一个错误答案,根据诊断画像指向的不同,可能需要不同的修复方案。这些结果表明,可靠的代理部署需要生命周期评估、机制级诊断以及针对阶段的修复,而不仅仅是更强的首日模型。
我们提出GE-Sim 2.0(Genie Envisioner World Simulator 2.0),一种面向机器人操作的闭环视频世界模拟器。在Genie Envisioner的动作条件视频生成框架基础上,GE-Sim 2.0使用数千小时的真实机器人数据进行重新训练,涵盖遥操作、接触密集交互及机载策略部署,显著提升了动作跟随的保真度与轨迹覆盖范围。在此基础之上,三个新模块实现了从视频模拟到策略学习的闭环:状态专家模块,从视频潜在表示中解码本体感知状态,以支持下游VLA策略的下一片段预测;世界裁判模块,根据任务指令对生成的轨迹进行评分,提供可机器验证的成功信号与奖励,替代人工检查;加速框架,在单块H100上以2.3秒生成25帧,并在推理时支持最高4倍跳帧,用于长程评估。GE-Sim 2.0仅以2B参数量登顶公开的WorldArena排行榜,超越专用机器人世界模型与闭源通用视频生成器;基于其生成轨迹与奖励训练的策略能够转化为可度量的真实世界性能提升,确立了GE-Sim 2.0作为可扩展评估与操作策略闭环学习的实用平台的地位。
模型内部蕴含着丰富的信息,揭示了大型语言模型(LLM)如何处理其训练数据;然而,后训练阶段的数据工程主要依赖外部信号,忽视了模型内部蕴含的丰富内在信号。我们提出SAERL——一种面向LLM强化学习(RL)的数据工程框架。该框架利用稀疏自编码器(SAE)这一先进的机械可解释性工具提取的模型内部表征,建模三种内在数据属性:多样性、难度与质量。每种属性对应一项具体的数据工程操作:基于SAE空间聚类并结合适度批次混合以实现批次多样性控制;构建难度代理指标以支持由易到难的课程排序;以及设计质量探针用于数据过滤。在Qwen2.5-Math-1.5B模型上,SAERL相比原始GRPO方法平均准确率提升3.00%,并在达到目标准确率时减少20%的训练步数;该增益在多种模型规模与RL算法上保持一致。实验表明,SAE能够跨模型系列与规模有效迁移,成为轻量级且可复用的数据工程工具。这些结果证明,模型内部表征为后训练阶段的数据工程提供了强大且实用的信号源。
基于大语言模型的搜索代理是真正在搜索,还是利用网络来验证其已知信息?我们通过三种诊断方法在BrowseComp上研究这一问题。分析揭示了内在知识依赖(IKD):即便拥有工具访问权限,搜索代理往往依赖内在知识——即检索前模型中已编码的信息——而非外部证据。代理在没有工具的情况下回答了多达44.5%的BrowseComp问题,其生成的搜索查询中超过一半来自内部产生的假设而非检索线索,且当移除答案支撑证据后,其表现甚至低于闭卷基线。这些结果表明,静态搜索基准可能奖励基于记忆的验证而非证据驱动的发现,混淆了代理已知内容与其所能发现的内容。为此,我们提出LiveBrowseComp——一个旨在评估代理超越内在知识覆盖范围的深度搜索基准。该基准包含335个由人类撰写的问题,其答案依赖于基准构建前90天内发布的事实,来源涵盖六个持续更新的信息源,并剔除了全球性显著事件。在LiveBrowseComp上,所有评估的代理闭卷准确率均低于2%,搜索增强得分较BrowseComp下降25-40分,且先前的模型排名不再可靠地预测性能。LiveBrowseComp访问地址:https://huggingface.co/datasets/Forival/LiveBrowseComp
混合推理大语言模型(LLMs)提供了对推理努力水平的显式控制,使用户或系统能够在答案质量与推理成本之间进行权衡。然而,现有的自适应思考模式选择方法通常在不同的模型、数据集和实现假设下进行评估,这使得比较其实际行为变得困难。我们提出HRBench,一个用于研究混合推理LLMs中思考模式切换的统一评估框架。HRBench沿两个维度组织设计空间:三种切换策略族——基于提示的选择、外部路由和投机执行,以及四种训练范式——无训练、监督微调(SFT)、离线强化学习和在线强化学习,从而产生12种受控评估设置。我们在6个LLM(从Qwen3.5-2B到Kimi-K2.5-1.1T)和5个涵盖数学、科学和代码的推理基准上评估这些设置,同时在同一流程中重新实现了12种以上的代表性先前方法。我们的分析刻画了不同切换策略如何占据不同的效果-效率权衡区域:基于提示的方法通常提供有利的token-准确度权衡,路由方法提供更稳定的成本降低,而投机方法倾向于以更高的token成本提高准确度。我们进一步发现,训练对不同策略的影响存在差异,且首选策略随模型规模和任务领域而变化。HRBench提供了参考实现和统一的评估平台,以支持对混合推理LLMs中高效推理的更受控研究。我们的数据、代码和仓库可在https://github.com/usail-hkust/HRBench获取。
在线策略蒸馏最近作为一种有前景的替代方案出现,用于替代标准的序列级模仿学习,它通过教师模型对学生自身生成的序列进行评分来训练学生。然而,我们观察到该范式中存在的"离线策略教师衰减"问题:对于后面的token,由于学生的早期轨迹作为上下文对于教师模型来说是离策略的,教师产生修正性评分的能力会衰减,并可能退回到预训练阶段学到的token补全行为。我们通过实验验证了该问题,并提出了早停式生成(Early Stopping Rollout, ESR)来修复它:一种简单且有效的蒸馏策略,仅限制生成序列的前几个响应token。我们表明,ESR不仅在模型规模、家族、任务和训练方案上超越了完整序列生成的OPD性能,而且在跨模型家族场景下展现出更高的GPU效率和训练稳定性。我们进一步研究了这一惊人性能背后的机制,发现了ESR的"级联对齐"和"子模式承诺"效应,这可能解释了它为何有效,甚至有时能超越教师模型性能。此外,我们表明这种基于位置的token选择策略无法完全由KL散度和熵信号解释。
为了实现可靠的长期交互,大语言模型智能体需要一种能够忠实存储、高效检索并对累积对话历史进行深度推理的记忆系统。现有方法大多采用基于事实提取的范式:通过手工设计的静态提示将原始对话压缩为原子事实,再对这些事实进行存储、匹配并注入下游推理过程。然而,这种以事实为中心的设计不可避免地会丢失原始对话中的细粒度细节,且难以支持对分散孤立事实的深度推理。此外,静态提示在不同对话风格的场景下无法保持一致的提取粒度。为解决这些限制,我们提出TriMem,该方法维护三种共存的表征粒度:通过源标识符锚定的原始对话片段(保障存储保真度)、提取的原子事实(实现高效记忆检索)、以及将分散事实聚合为整体语义理解的综合画像(支持深度推理)。我们进一步采用基于TextGrad的提示优化技术,通过响应质量反馈迭代优化提取与画像提示,在不更新任何参数的情况下实现终身进化。在LoCoMo和PerLTQA数据集上基于多种大语言模型骨干网络的实验表明,TriMem持续优于强基线记忆方法。相关代码已开源至https://TMLR-TriMem.github.io。
现代大型语言模型(LLMs)常因生成重复且同质化的文本而受到批评,尽管它们拥有庞大的潜在词汇库。以往研究多聚焦于模型知识与训练数据,而我们则探究解码机制在抑制语言多样性中的作用。我们提出"词覆盖率得分"(Word Coverage Score, WCS)这一指标,用以量化上下文恰当的人类词汇被标准采样过滤器(如Top-p、Top-k和Min-p)从数学上剔除的程度。WCS并非评估静态知识,而是衡量低频、高信息量人类词汇的词汇存活率如何随采样参数变化。通过审计开放权重模型在人类撰写的语料片段上的表现,我们识别出那些位于概率空间内、却因解码器而变得不可达的逻辑词汇选择。研究结果提供了定量证据,表明行业标准的采样默认设置充当了无意的审查机制,将人类表达的独特纹理平滑为同质化的话语。WCS为优化文本连贯性与词汇丰富性之间的权衡提供了严谨框架,成为在生成模型中保留人类语言多样性的诊断工具。
使用不可信数据微调大型语言模型会使模型面临后门攻击风险,其中被污染的样本会导致目标性异常行为。现有的样本过滤防御方法依赖聚类技术,但需要充足数据且在极端污染比例下可能失效。我们提出GradSentry(梯度哨兵),这是一种基于逐样本梯度光谱熵的后门样本过滤方法。核心发现是污染的样本产生的梯度比干净样本具有更高的光谱熵。GradSentry利用逐样本梯度光谱捕获改变输出的后门特征,在特征构建过程中无需进行样本对比较或聚类操作。更重要的是,该方法与训练过程无关:由于梯度分析独立于训练中更新的参数类型,因此既适用于LoRA等参数高效微调方法,也适用于全参数微调。GradSentry无需聚类,在所有污染比例(1%–90%)下均能有效运作,且计算开销极低(7B模型每样本20-50毫秒)。在四个问答数据集和四种攻击类型上的评估表明,光谱熵对后门检测具有显著有效性。代码已开源在 https://github.com/dongdongzhaoUP/GradSentry。
用于游戏和仿真中的交互式3D资产通常需分解为特定的语义部件,以支持动画、物理和脚本化行为,但目前的多数生成式3D模型输出的要么是单一网格,要么是无法对齐具体应用需求的任意部件分解方案。我们提出CubePart——一个面向开放词汇、部件可控的3D网格生成框架,它将部件结构作为显式的推理时控制信号。给定全局文本提示和用户定义的部件模式(以开放部件名称列表形式表示),我们的方法生成一组网格(每个模式元素对应一个),这些网格在保持指定语义结构的同时组合成一个连贯对象。为实现此功能,我们引入一套可扩展的数据处理流程,以构建大规模的开放词汇部件标注3D数据集,并采用两阶段生成架构,将全局形状合成与部件级解码相分离。我们证明,生成的资产可直接集成至游戏引擎,由动画和行为脚本驱动,无需手动后处理。项目页面:https://cubepart.github.io/
基于大语言模型的智能体在搜索基准测试中表现良好,但真实用户始终对其结果感到不满,这揭示出评估与体验之间持续存在的差距。我们将这一差距归因于现有基准测试依赖过度限定的查询、单轮交互以及固定模式的评估,而这些均未能反映用户与智能体通过多轮对话协同优化模糊意图的真实搜索行为。我们将此范式称为VibeSearch,并引入VibeSearchBench基准——该基准包含200个手动构建的双语(中文与英文)任务,覆盖20个领域,划分为VibeSearch-Pro(专业)与VibeSearch-Daily(日常生活)两个子集。每个任务将用户角色与无模式的事实性知识图谱配对,并通过渐进式披露的用户模拟器与图匹配评估框架进行评估。我们基于ReAct框架与OpenClaw智能体工具集对七种前沿模型进行了基准测试。结果表明,所有模型在VibeSearch任务中仍存在显著不足(最佳F1分数为30.30),凸显了在长上下文推理、主动意图激发和结构化知识构建方面实现根本性突破的必要性。
视觉结果在多模态大语言模型中日益占据核心地位,这使得可靠且细粒度的验证对于扩展通用基础模型至关重要。本文研究了多模态元验证方法,该方法利用验证器生成的推理依据而非仅依赖决策信号,并探索如何有效将元验证反馈整合到多模态验证器训练中。我们发现两个关键结论:第一,符号化验证器输出(如边界框)作为元验证推理依据优于文本解释,能在避免依赖辅助评判模型的模型奖励的同时,实现高效的基于规则的强化学习奖励;第二,针对二元判断和元验证目标进行解耦强化学习,由于输出结构和学习动态的内在差异,其效果显著优于联合奖励优化。基于这些发现,我们训练了OmniVerifier-M1——一种采用符号化元验证和解耦强化学习的通用视觉验证器。OmniVerifier-M1提供稳健的验证和细粒度错误定位,并进一步实现了M1-TTS(一种验证器驱动的智能体式生成系统),该系统具备动态区域级自我修正能力。该方法为更可靠、可解释且细粒度的多模态验证铺平了道路,支持更安全、更可控的基础模型部署。
思维链(CoT)监控已被提出作为检测大语言模型中不对齐行为的一种有前景的安全机制。然而,其可靠性在英语之外以及不同模型家族中的表现仍鲜有探索。我们首次对13种不同语言和7个前沿模型家族(共16个模型)进行了大规模的CoT可监控性评估。通过使用需要明确中间计算的对抗性提示评估,结合对内部答案标记概率的分析,我们一致发现不同语言和提示类型下存在CoT不忠实现象,在8B至120B参数模型中平均比率达95.9%。我们发现前沿模型系统性地实施策略性操纵,包括答案切换、事后合理化以及过程性利用提示,使外部监控者难以检测到欺骗行为。研究表明,即使CoT看似忠实,前沿模型往往在生成过程的前15%内其潜在激活中就已锁定不对齐线索。令人惊讶的是,这些欺骗模式在低资源语言中仍保持100%的比率,揭示了当前基于CoT的监督存在根本性局限。我们的结果表明,CoT监控在语言分布偏移下本质上较为脆弱,所提供的安全信号显著弱于仅基于英语研究得出的结论。这些发现凸显了开发稳健CoT监控器的紧迫性,并需加速白盒监控技术研究,特别是改进中低资源语言中CoT的可监控性。我们的代码可见于https://multilingual-cot-monitoring.github.io/{blue{here}}。
从噪声生成图像是图像生成;从粗糙输入重建精细细节则是超分辨率。尽管两者在实践上有所差异,但本质上都可理解为跨尺度的信息丢失恢复。我们提出SKILD(尺度不变K空间图像学习扩散模型),该模型在单一无条件框架内统一了图像生成与连续超分辨率任务。自然图像及关键物理系统均呈现尺度不变性,我们利用这一特性设计前向过程:在注入频谱匹配的高斯噪声的同时,将图像内容从精细到粗糙尺度逐步衰减,使尺度成为扩散动力学的显式坐标。相同训练后的反向过程仅通过改变起始时间步即可执行生成与连续超分辨率任务——无需任务专属架构、无条件分支、无分类器引导、无需针对不同缩放因子重新训练。实验结果表明,SKILD在无条件CIFAR-10上达到FID 2.65和Inception Score 9.63;基于单一无条件检查点即可在ImageNet上实现2倍至8倍超分辨率,且在感知指标上超越条件模型;同时能够重建临界伊辛模型,其连通四点关联函数与真实值高度吻合。
参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)已成为适配大语言模型的标准方法,然而现有评估主要关注下游任务准确性,忽视了预训练能力的保持。我们认为,PEFT应当通过稳定性-可塑性困境(stability-plasticity dilemma)来评估,即目标任务适配与抗遗忘能力之间的权衡。为此,我们提出了PEFT-Arena基准,该基准同时衡量下游性能与通用能力保持。在不同方法中,我们发现其稳定性-可塑性特征存在显著差异;在可比参数预算下,正交微调(orthogonal fine-tuning)实现了最优的帕累托前沿(Pareto frontier)。为解释这些差异,我们从两个几何视角分析了PEFT的更新机制:在权重空间中,谱分析揭示了参数化方式如何与预训练奇异值结构相互作用;在激活空间中,保持性指标显示微调是否保留或扭曲了通用能力的表征,而遗忘与非线性表征扭曲相关。最后,分析表明最终的SFT检查点往往越过了一个更优的目标-保持性操作点。受此启发,我们展示了基于路径回退(path-wise rewinding)的后期改进案例研究。
跨视图空间推理仍然是视觉语言模型(VLMs)的薄弱环节:它们通常依赖语言进行推理,从而丢失完成任务所需的细粒度几何信息。基于图像的思维方法试图通过生成中间思维图像来解决这一问题,但近期研究表明,模型常常忽略这些思维轨迹中的视觉证据。因此,我们探讨如何使视觉思维产生实际作用,以及何种视觉思维最为有效。本研究在统一多模态模型(UMMs)框架下展开,这类模型原生支持图像与文本交错生成。针对第一个问题,我们提出视图丢弃(VDrop)——一种训练时干预手段,在保持输入视图部分区域对思维图像可见的同时,将其从答案生成区间隐藏。这促使模型在回答问题时必须借助思维图像,而非仅依赖原始输入视图。在确定思维图像被用于答案预测后,我们进一步研究最有效的视觉思维类型。我们将其归纳为可学习性与信息量之间的权衡,并比较了三种思维图像变体:自上而下、全景和点匹配渲染图。在合成场景上训练并在五个真实世界域外基准上评估后,采用VDrop的全景视觉思维是唯一兼具信息性与可学习性的配置,并实现了最优的域外泛化性能。
基于大语言模型(LLMs)构建的多智能体系统需要大量难以预先确定的协调决策:调用哪种技能协议、由哪个智能体角色执行子任务、每个角色绑定哪个模型、角色之间如何交互、何时使用检索或验证,以及何时完全省略某个步骤。这些决策与任务场景和操作约束相互影响,因此静态流水线和单次模型比较只能提供设计空间的有限视角。本文介绍了AgensFlow——一个将多智能体协调视为部分可观测条件下在线策略学习问题的开源框架。该框架使协调决策可观测且能从重复轨迹中学习,而非将技能、角色、模型、拓扑结构和评估选择视为固定的流水线设计。 AgensFlow在两个语料库上进行了评估:分布式系统事件任务和安全公告任务。评估展示了三项主要结果:在协调密集型任务类别中,学习路由相比固定流水线基准达到了更高质量的操作点;skip:X机制将拓扑压缩作为底层的关键组成部分加以隔离;热启动策略图能在保持平台期质量的同时降低探索成本。总体而言,这些结果证明了可学习、可审计的路由机制能够比静态线路连接更有效地改进协调密集型多智能体工作流。
基于可验证奖励的强化学习(RLVR)已成为提升大型语言模型推理能力的标准范式,而多令牌预测(MTP)则是预训练中广泛采用的模块。将二者结合本是自然之举,但当前的强化学习实践中常分离MTP梯度,因为联合训练会导致性能下降。我们从优化视角重新审视这一失败案例,发现MTP对强化学习目标每步效应可分解为两项:一阶相关项与二阶扰动惩罚项。该分解统一了三种MTP训练模式——分离模式、交叉熵损失与策略损失,并解释了各自成败的原因。对策略损失的进一步分析表明,尽管其符合直觉,但性能仍会退化:相关项衰减而二次惩罚项持续存在。基于分析结果,我们提出最优系数校准(OCC)方法——一种通过对数概率代理在线追踪最优系数的自适应方案,且计算成本极低。在六个竞赛级数学推理基准测试中,OCC持续达到或超越分离基线,显著提升了MTP-强化学习联合训练的性能。
AI安全评估的有效性取决于模型在受控环境和部署环境中行为的一致性。先前的研究发现,测试时上下文线索(例如假设性场景)会导致模型明确表达评估意识,并进而引发行为变化。本文探讨了这一现象的一个潜在解释:评估元知识,即关于评估结构性特征的参数化知识。与数据集污染(基准测试暴露通过记忆化导致性能提升)类似,我们假设在描述评估实践的文本(例如涉及AI基准测试的科学文章或社交媒体帖子)上训练的模型可能隐含地学会识别和响应类似评估的上下文。为验证这一假设,我们在描述评估特征(如可验证结构或道德困境)的合成文档上对模型进行微调。针对六个安全基准测试的评估结果显示,该微调模型的安全性显著高于基础模型和对照模型。即便将分析限制在未明确表达评估意识的回答中,这种行为变化依然存在。我们的研究表明,评估元知识可能人为提升安全基准测试性能,引入了一种独立于显式记忆或明确评估意识表达的新型混杂因素,因此难以检测。这些发现对AI安全评估的设计与解读具有重要意义。我们的代码和模型已公开于 https://github.com/compass-group-tue/arxiv2026_evaluation_meta_knowledge。
图表问答(QA)基准旨在提出需要视觉推理才能正确回答的问题,但模型往往能够通过捷径或基于自身背景知识对图表的预先熟悉来得出答案。为严格评估视觉推理能力,我们提出了反事实图表,其中图表问答任务保持不变,但底层图表及相应答案发生改变。我们介绍了Chartographer框架,该框架能够将图表逆向工程为可执行代码,验证重建保真度,生成种子控制的反事实变体,并通过可执行的问答逻辑推导出新答案。我们将该框架应用于现有图表QA数据集,并评估了专有和开源视觉语言模型(VLM),衡量变异敏感性和泛化能力。反事实图表揭示了单图表评估所隐藏的失败:VLM在正确回答原始图表问题后往往无法泛化。我们发现,当更新后的图表需要全新的视觉推理路径时,失败最为常见。
科学研究通过假设生成、实验设计、执行和修正的迭代循环推进。AI智能体可以自动化这一过程的某些部分,但现有方法通常遵循单一研究轨迹,或通过固定目标的中央规划器进行协调。因此,它们难以维持并行探索、在实验证据变化时进行调整,或在长期实验中保留失败方向的记录。我们提出了AutoScientists,一个面向长期计算科学实验的去中心化AI智能体团队。智能体解释共享的实验状态,围绕有前景的假设自组织成团队,在使用实验计算资源前批判性评估提案,并分享成功与失败以减少冗余探索。在匹配的实验预算下,AutoScientists在生物医学机器学习、语言模型训练优化和蛋白质适应性预测方面优于此前AI智能体。在涵盖生物医学成像、蛋白质工程、单细胞组学和药物发现的BioML-Bench基准上,AutoScientists在24项任务中实现了平均排行榜百分位数74.4%,比最强AI智能体提升了8.33%。在GPT训练优化中,AutoScientists达到目标验证集每字节比特数的速度比Autoresearch快1.9倍,并在单智能体方法未发现任何改进的起点冠军基础上持续发现改进(7项接受改进 vs 0项)。在ProteinGym适应性预测中,AutoScientists发现一种ACE2-刺突蛋白结合方法,在斯皮尔曼相关系数上比当前最优模型提升12.5%。将该方法未经修改应用于全部217项ProteinGym检测,其性能比先前最优水平提升6.5%(斯皮尔曼相关系数)。
现有的情感支持对话(ESC)系统主要依赖端到端响应生成或粗粒度的策略监督,可解释性有限,且难以支持系统化的技能提升。我们提出ESC-Skills,一个以技能为中心的框架,能够发现并自我演化可执行的情感支持技能。首先,我们将局部支持交互建模为干预单元(IU),该单元捕捉求助者状态、支持干预及响应后情绪变化之间的状态-动作-结果动态。基于从成功与失败的ESC对话中提取的IU,我们构建了ESC-Skills库,该库包含可执行的情感支持技能,涵盖干预指导、适用条件、预期结果及潜在风险。为提升鲁棒性,我们引入一种多画像自我演化优化框架:ESC智能体在SAGE评估下与多样化模拟求助者画像进行交互。通过分析交互轨迹,识别缺失技能、不安全干预及特定画像的失败模式,并基于模拟验证对技能库进行优化。实验结果表明,ESC-Skills在提升响应质量与对话层级情感结果的同时,提供了更具可解释性与可控性的支持行为。我们将于https://github.com/aliyun/qwen-dianjin 公开代码、提示词及ESC-Skills库。
AI编码代理正越来越多地被用于编写真实世界的软件,但确保其输出正确性仍是一项根本性挑战。形式化验证提供了一条有前景的路径:代理生成代码的同时附带机器可验证的证明,从而保证代码满足形式化规范。然而,形式化规范本身是否与用户意图一致却无法得到保证。在本工作中,我们研究规范自动形式化问题:LLM代理能否将非形式化的编程问题转化为可靠的形式化规范。我们引入了Verus-SpecBench基准,包含从Codeforces问题派生出的581项规范编写任务,目标语言为Rust验证工具Verus;同时构建了Verus-SpecGym代理环境,使模型能够通过与Verus、bash及文件系统交互来开发这些规范。核心挑战在于评估:专家编写的参考规范成本高昂,而LLM评判者可能遗漏细微错误。为此,我们通过两种方式应对:(a) 扩展Verus的exec_spec机制,使生成的规范能够作为Rust代码执行;(b) 将这些规范与官方Codeforces测试用例及从Codeforces“hacks”中提取的对抗用例进行测试——后者是参赛者编写的、用于攻破错误解决方案的边界案例。在Verus-SpecBench上,最强模型Gemini 3.1 Pro解决了77.8%的任务,其他前沿模型解决了51.1–57.8%,而开源模型仅达到21.5–25.5%。对失败模式的分析表明,模型生成的规范可能遗漏重要输入假设、接受错误输出或拒绝正确输出。我们还发现,基于LLM评判者的评估方式会遗漏我们评估工具所捕获的26%的失败案例。总体而言,我们的结果表明,规范自动形式化对于前沿代理已触手可及,但在那些它们已能生成正确代码的问题上仍显脆弱。相关代码、数据及日志可在https://github.com/formal-verif-is-cool/verus-spec-gym获取。
近期长周期智能体任务的进展主要依赖于通过增强模型、优化工具及构建更有效框架来纵向扩展单个智能体。相比之下,关于横向扩展的研究则少得多:即多个面向同一任务的对等智能体,能否在不依赖明确角色分工或工作流编排的情况下,成为额外的能力来源。我们针对这一问题展开研究,并提出AgentFugue——一种围绕共享推理中枢构建的集体推理框架。当对等智能体并行探索同一任务时,中枢会记录每个智能体已确认、尝试或排除的简洁笔记,使各智能体能够以当前搜索所需的形式选择性地获取其他智能体的发现。该设计将原本孤立的轨迹转化为可复用中间推理的互联生态,无需集中式规划。我们将中枢实现为可插拔的通信层,并通过监督微调和端到端强化学习进行训练。在研究的具有挑战性的长周期场景中,AgentFugue显著优于强基线模型。研究结果表明,集体推理能将横向扩展的对等智能体系统转化为独立的能力增益来源,而不仅仅是增加计算开销的手段。
由多模态大语言模型驱动的自主计算机操作代理正逐渐成为完成复杂数字工作流的高效助手。然而,真实世界的执行环境远非理想:弹窗、分辨率变化以及竞争应用程序频繁干扰代理的感知与控制。我们提出AgentHijack——一个专为评估计算机操作代理在常见干扰下鲁棒性而设计的基准测试,其中动态环境的不确定性会在无直接对抗意图的情况下破坏执行流程。具体而言,AgentHijack引入了9种可配置的常见干扰,以复现现实中的不完美场景。我们评估了多种基于多模态大语言模型的桌面任务代理,发现即便是微小的干扰也可能导致显著的性能下降,这凸显了代理的脆弱性以及进行鲁棒性评估的必要性。随后,我们提出AgentHijack-Agent框架,该框架集成一个具备增强环境定位能力的动作生成器,以及一个负责行为总结与环境检查的观察者。大量实验验证了其有效性。我们的代码、环境、基线模型及数据均可在https://AgentHijack.github.io公开获取。
大型多模态模型(LMMs)在感知与推理方面取得了快速发展,然而,这些能力是否能够泛化到开放环境中发现视觉上具象化的解决方案(而不仅仅是模式识别),仍不明确。在此类场景中,智能不仅仅体现在回答定义明确的问题上,更涉及识别场景中的元素如何以非显而易见但物理上可行的方式被重新利用。这种创造性问题解决形式是人类智能的核心,但在现有基准测试中基本未得到检验。为评估这一能力,我们提出了MM-CreativityBench——一个面向丰富视觉、物理约束环境下基于功能属性的创造性工具使用的基准测试。每个实例包含一个场景图像,以及候选实体及其部件的结构化视图,从而支持细粒度、交互式的评估,考察模型如何迭代地检查场景、识别相关功能属性,并组合出视觉与物理上具象化的解决方案。实验表明,当前LMMs往往表现不佳,其根源并非生成能力不足,而是无法持续进行具象化的探索。模型常常忽略相关实体、未能充分检查关键部件,或幻觉出图像中不存在的属性。受此失败模式的启发,我们提出了功能属性对齐方法,将创造性工具使用视为一个偏好学习问题。通过直接偏好优化(DPO),我们鼓励模型更倾向于基于视觉证据的属性-功能推理,而非幻觉性替代方案。此外,我们引入了源自功能属性知识库的监督信号,以引导更广泛的实体探索和多轮规划。实验结果显示,该方法在正确选择实体和部件方面取得了一致性提升,同时显著减少了幻觉和与具象化相关的错误。
空间和时间资源约束对生物与人工智能系统均至关重要。本文在递归卷积神经网络中定义了宽度、深度与时间这三个可微分的代价项,该网络被视为无限格点结构中的一个有限子集。我们通过反向传播算法,将这些代价与任务误差联合优化。通过施加不同强度的宽度、深度与时间约束,不同计算图在训练过程中得以有机涌现。研究发现,为实现特定准确率水平,这三种资源可以相互权衡。网络在三个维度上随任务复杂度增长,并且在输入被遮挡时会自发增加递归步数。令人惊讶的是,模型使用的处理时间与人类在物体识别任务中的反应时间存在相关性。本框架为资源约束如何塑造神经架构提供了规范性解释,既关联神经科学中关于大脑设计的核心问题,又有助于阐明自然界中神经解决方案的多样性。
大语言模型(LLMs)在代码补全与生成中的应用日益广泛,但其可能一字不差地复现训练示例且未标注作者归属,由此引发关于抄袭与许可合规的法律及伦理问题。基于指纹识别的经典抄袭检测方法(如Winnowing)仍非常有效,但检查过程需将代码片段与整个训练集比对,且线性时间搜索使其难以应用于训练现代代码LLM所需的十亿级语料库。为弥合这一差距,我们提出SOURCETRACKER——一个专为代码检索设计的3亿参数编码器,并配套构建了混合两阶段溯源追踪流水线HYBRIDSOURCETRACKER(HST)。HST首先通过向量搜索缩小候选片段范围,再利用Winnowing对精确指纹进行候选重排序。我们基于THESTACKV2数据集中的1000万片段子集进行系统训练与评估,其中既包含逐字复制的片段,也包含模拟真实标识符重命名的改编片段。在包含10万片段的体外搜索空间中使用改编查询时,我们的混合方法对30个词元片段达到了与Winnowing相当的平均倒数排名。当起始窗口≥60个词元时,其性能持续提升最高达5.4%,同时保持对数时间查询复杂度。在基于LLM的辅助评估中,我们发现许多未被标记为真值的检索片段仍与预期来源高度相似,尤其在更长上下文窗口下,因此对最终用户仍有实用价值。总体而言,我们的结果表明,将向量搜索与指纹识别相结合,能够实现对LLM生成代码的可扩展、高精度溯源追踪。
早期电池退化轨迹预测(BDTF)旨在从早期运行数据中预测全生命周期健康状态轨迹,这对电池优化、制造与部署至关重要。电池退化数据呈现两个关键特征:首先,退化数据具有多层次结构,既包含老化条件下的共性规律,又涵盖跨电池共享的轨迹模式;其次,电压-电流曲线中与退化相关的波动往往集中在特定的荷电状态(SOC)区间。现有方法通常未能显式建模这些特征。为解决这一局限,我们提出BatteryMFormer——一种用于早期BDTF的多层次Transformer模型。BatteryMFormer整合了:(1)老化条件感知解码器,通过老化条件引导的查询及老化条件感知注意力机制注入先验知识;(2)元退化模式记忆模块,学习并检索轨迹原型以指导长期预测;(3)双视角编码器,从电压和电流时间序列中联合捕获时序动态及SOC局部变化。在四个电池领域的广泛实验表明,BatteryMFormer持续优于当前最优基线,标志着向可靠BDTF迈出重要一步。我们的代码已开源:https://github.com/Ruifeng-Tan/BatteryMFormer。
近期研究表明,大语言模型(LLMs)通过引入功能符号表征(如抽象描述图遍历算法和少样本学习中逐步推理的符号形式)能够展现出强大的推理能力。然而,目前尚不明确LLMs如何仅凭少量示例就能真正理解每个推理步骤的抽象含义及整体算法逻辑。本研究旨在定位负责各推理步骤的注意力头,并刻画这些头之间传递的信息类型。我们首先在符号增强型思维链(CoT)提示框架下,将构成推理的步骤与其对应的词元logits对齐。分析表明,引导推理过程的词元位置与低置信度分数相关,这种低置信度源于示例中推理行为模式需满足的约束条件。随后采用因果中介分析技术识别负责这些模式的注意力头。此外,研究结果显示:LLMs通过专用注意力头(约占全部注意力头的3%)为各子推理任务检索事实性和规则性信息,而高层网络层主要促进信息整合及全局推理策略(如图遍历算法)的涌现——这种策略协调多个中间推理步骤以完成整体任务。
大型语言模型(LLM)代理日益通过编写代码来行动,但驱动代理的运行时与模型所编写代码之间仍存在割裂。运行时掌控着循环逻辑、上下文和控制流,而模型对此几乎没有发言权。若让模型编写的代码能够塑造运行时本身,虽能增强代理的表达能力,但也会加剧安全问题。模型可能因提示注入而偏离预期、调用错误工具,或中途失败导致状态不一致——当代码能够塑造运行时,此类故障的后果远比代码仅表达单个动作时更为严重。我们提出LACUNA,一种在保障安全性的前提下弥合这一割裂的代理编程模型。每个代理动作均为类型化调用agent[T](task),当执行到达该调用时,由LLM填入代码,且代码在运行前会针对周围程序进行类型检查。由于每个动作以整体方式被接受或拒绝,被拒绝的动作不会改变环境状态,其编译器诊断信息会驱动重试;同一检查机制还会限定动作可使用的工具、数据及其数据流。我们的原语可将ReAct循环、子代理、技能、并行分解及多模型规划表达为普通控制流。我们在测试用例集、BrowseComp-Plus和τ^2-bench上对LACUNA进行了评估。在BrowseComp-Plus上,8.6%的生成结果在执行前被拒绝,每次查询平均重试0.7次,代理达到27.1%的准确率。在τ^2-bench上,LACUNA凭借高效模型解决了四个领域392个任务中的76.0%,与基准代理表现相当。
指代分割旨在根据文本查询对图像或视频中的目标对象进行分割。尽管过去几年取得了显著进展,现有研究通常假设用户提供的查询已经精确且清晰。然而,这种假设并不切实际。在真实场景中,期望所有用户都仔细审查视觉内容并确保其查询唯一且无歧义是不现实的。当遇到此类情况时,现有分割模型往往随意猜测用户偏好,常导致不理想的结果。为解决这一局限,我们提出IC-Seg——一种新颖的智能体框架,通过分割前的多轮对话主动澄清用户意图。为了有效激励这种能力,我们进一步引入Hi-GRPO,一种新的分层优化策略,在轨迹、轮次和步骤层面注入密集且信息丰富的监督信号。该策略鼓励高效意图澄清,有效消除冗余交互并提升整体对话质量。为进行评估,我们构建了Ambi-RVOS,一个包含模糊用户查询的指代视频对象分割基准。大量实验表明,IC-Seg不仅在解决模糊查询方面大幅超越现有方法,还在标准推理分割基准上保持最优性能。代码与数据将在 https://github.com/iSEE-Laboratory/IC-Seg 发布。
从图像中理解三维物体是机器人技术与AR/VR应用的基础。尽管近期工作在类别级位姿估计方面取得了进展,现有表示方法仍无法捕捉推理物体部件、功能及交互所需的细粒度语义信息。本研究聚焦于相机空间中的类别级三维对应关系——即从单张图像预测同一类别内各实例间保持一致的3D位置——并发现通过学习共享的可变形物体先验,无需显式对应监督即可涌现此类能力。为推进该方向研究,我们提出HouseCorr3D——首个大规模单目类别级三维对应基准,包含50个家居物体类别、280个独立实例的17.8万张图像,以及直接标注于CAD模型上的三维关键点。关键在于,HouseCorr3D提供了遮挡区域的非模态对应标签与显式对称性标注,弥补了现有数据集的关键缺陷。我们进一步提出Morpheus方法,通过解耦规范形状、形变与物体姿态来学习可变形类别级形状先验。借助这种共享规范基准,相机空间中语义有意义的三维对应关系得以隐式涌现。这些涌现的三维对应方法在HouseCorr3D上达到了当前最优水平,证明无需直接对应监督即可实现语义级三维物体理解。数据集与代码已开源至https://github.com/GenIntel/HouseCorr3D。
Clark Hash是一种占用空间更小的神经嵌入存储方法。该方法对每个数据库向量进行归一化处理,应用确定性稀疏有符号Johnson-Lindenstrauss投影,对结果进行裁剪,并存储固定宽度的标量量化编码。查询保持浮点格式,并与存储的草图进行评分。在默认的384维句子嵌入设置中,Clark Hash将余弦搜索向量存储为48字节,而密集f32存储需要1536字节,缩减了32倍。该方法无需训练过程、学习型码本、旋转操作或语料库统计即可存储新向量。我们描述了该编解码器、其Rust实现,并在来自29个子集的9,304个标记对上进行了多语言句子相似性评估。使用多语言MiniLM编码器时,48字节草图在STS17和STS22上分别达到了0.910和0.946的宏观皮尔逊相关系数(与密集余弦评分相比)。Clark Hash并非新的Johnson-Lindenstrauss定理,也不能替代近似最近邻索引。它是一种用于紧凑嵌入存储的简单无状态编解码器。
LLM安全性评估主要在隔离环境中测试模型,然而已部署的AI智能体正越来越多地在持续社交环境中与其他智能体协同运作。我们引入一种Moltbook式模拟平台,该平台在模拟一个月的时间内让数千个LLM智能体跨社区互动,并利用该平台评估隐私作为下游安全性问题在不同社会压力程度下的表现。研究发现:从单轮评估转向多轮社交评估会显著放大隐私泄露(在OpenAI系列模型中,CIMemories的19.95%升至本文方法的45.30%);信息泄露具有社会传染性,观察到同伴泄露敏感信息的智能体,其自身泄露概率高出8倍;明确的隐私指令虽能抑制但无法消除此效应,即便存在防护措施,泄露率仍高于37.8%。我们的结果表明,基于静态聊天的安全性基准系统性地低估了智能体部署中的风险,仅凭社会语境就足以引发单轮评估永远无法发现的敏感信息披露。
近期视频超分辨率(VSR)方法采用深度神经网络增强低质量输入视频并恢复视觉细节,其中基于扩散的方法展现出显著潜力。本文通过比较模型预测与主观测试结果,探究现有视频质量模型能否评估这些基于扩散的VSR方法性能。研究针对经压缩(AV1和DCVC-RT)与未压缩的低分辨率视频,在UHD-1/4K屏幕播放场景下,对比了六种超分辨率方法(Lanczos、Rhea、SCST、DOVE、SeedVR2、Starlight Mini)。采用一系列全参考与无参考质量模型评估其对这类新型质量退化的适用性,重点关注序列内性能。结果表明,基于CNN的全参考模型(如LPIPS、DISTS和CVQA-FR)的相关性系数显著高于传统全参考模型及所有测试的无参考模型。多数模型高估了SCST过度锐化的结果,而VMAF主要因Starlight Mini引入的空间不一致性导致性能失效。所有测试的视频质量模型均未达到足以替代补充性主观测试的精度。本文附带的原始、退化及超分辨率视频,以及用户评分与模型分数,均以开放数据形式发布至https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR。
大型语言模型(LLM)主要受概率框架支配,其中所有可能结果的概率之和被约束为1。这种由Softmax层强加的结构限制导致了不确定性的坍塌,使得模型难以区分认知不确定性、悖论与模糊性。本文对中智逻辑(Neutrosophic Logic)在LLM认知状态建模中的应用进行了实证研究。中智逻辑将真值(T)、不确定值(I)和假值(F)视为三个独立维度。我们以四种OpenAI GPT模型为研究对象,针对五种语言现象(逻辑悖论、认知无知、模糊性、伦理矛盾、未来偶然性),在三种提示策略(中智提示、概率提示和熵推导提示)下开展实验。结果表明,中智方法通过允许T+I+F>1(我们称之为“超真”状态),能够更丰富地表征模型内部状态。在35%的评估中,超真状态自发出现,主要集中于伦理矛盾和逻辑悖论情境下。我们证明,该方法可在模糊语境中保留真值,并提供了一种稳健的方法来识别和量化模型内部冲突。结论认为,集成中智评估层是构建更透明、更可靠、更具伦理意识的人工智能系统的关键步骤。
我们提出了PEAM——一种在Minecraft中的参数化具身智能体记忆框架。该框架将智能体的记忆从推理时的检索转变为通过经验内化到参数中的技能。PEAM将一个用于开放式推理的慢速深思型大语言模型(LLM)与一个用于反射性执行已巩固技能的快速参数化模块相结合。快速模块采用多模态混合专家LoRA架构,每个类别配备物理隔离的适配器,从而在无灾难性遗忘的前提下实现参数级持续学习。我们将失败视为一等训练信号:失败-修正轨迹对通过联合行为克隆和对比目标进行内化,使得智能体不仅能学习哪些行为会成功,还能理解修正后的动作与失败动作之间的差异。为了管理巩固过程,PEAM引入了一个“参数化价值评分”来决定哪些经验应被内化,并设计了一种无尺度自触发巩固机制来决定何时进行内化,无需针对特定任务手动调整阈值。这使得智能体能够在无需重调参数的情况下,随着触发机制跨任务分布迁移而实现自我进化。在Minecraft中的实验表明,PEAM显著提升了长周期任务的表现,减少了对已巩固技能的遗忘,并在参数化与检索效率方面优于基于检索的具身智能体及其他参数化记忆变体。
离散扩散模型已成为生成结构化分类数据的强大框架。然而,从奖励偏斜分布中高效采样仍是一项根本性挑战。尽管扭曲序贯蒙特卡罗(SMC)方法在该任务上具有渐近精确性,但在离散状态空间中估计最优扭曲函数需要昂贵的蒙特卡罗近似,导致推理过程中出现严重的计算瓶颈。为克服这一局限,我们提出了对比分布匹配(CDM)这一新型框架,通过正负样本学习参数化扭曲函数,从而分摊SMC推理的成本。为实现高效训练,我们重新构建了梯度估计器,以利用离散扩散模型的闭式前向核。在实际中,评估学习到的扭曲函数相较于基础模型的单次前向传播,仅增加不到5%的计算开销。通过大量实证评估,我们证明在相同实际运行时间下,CDM始终优于现有基线方法。我们验证了该方法在多种应用中的有效性和通用性,包括有害文本生成、调控DNA序列设计、蛋白质可设计性以及扩散大语言模型对齐。