每日精选AI研究论文及翻译
原生计算机使用智能体(CUA)的发展标志着多模态AI领域的重大飞跃。然而,其潜力目前受限于静态数据扩展的约束。现有范式主要依赖对静态数据的被动模仿,难以捕捉长周期计算机任务中固有的复杂因果动态。本研究提出EvoCUA——一种原生计算机使用的智能体模型。与静态模仿不同,EvoCUA将数据生成与策略优化整合为自我维持的进化循环。为缓解数据稀缺问题,我们开发了可验证合成引擎,能自主生成多样化任务并配备可执行验证器。为实现大规模经验获取,我们设计了可扩展基础设施,可协调数万个异步沙箱推演。基于这些海量轨迹数据,我们提出迭代进化学习策略以高效内化经验。该机制通过识别能力边界动态调节策略更新:强化成功操作流程,同时通过错误分析与自我校正将失败轨迹转化为丰富的监督信号。在OSWorld基准测试中的实证评估表明,EvoCUA实现了56.7%的成功率,创造了开源模型的新标杆。值得注意的是,EvoCUA显著超越此前最佳开源模型OpenCUA-72B(45.0%),并优于UI-TARS-2(53.1%)等闭源权重模型。关键的是,我们的结果验证了该方法的普适性:基于经验学习的进化范式在不同规模的基础模型中均能带来持续性能提升,为推进原生智能体能力开辟了稳健且可扩展的路径。
扩散大语言模型(dLLMs)突破了传统LLMs严格的从左到右生成限制,实现了按任意顺序生成标记的能力。直观来看,这种灵活性意味着其解空间严格包含了固定自回归轨迹,理论上为数学和编程等通用任务解锁了更强的推理潜力。因此,已有大量研究采用强化学习(RL)来激发dLLMs的推理能力。本文揭示了一个反直觉的现实:当前形式的任意顺序生成非但没有拓宽dLLMs的推理边界,反而使其收窄。我们发现dLLMs倾向于利用这种顺序灵活性来规避对探索至关重要的高不确定性标记,导致解空间过早坍缩。这一发现对现有dLLMs强化学习方法的前提提出了挑战——这些方法往往需要处理组合轨迹和难解似然等复杂问题以保持顺序灵活性。我们证明,通过主动放弃任意顺序生成并采用标准的分组相对策略优化(GRPO),能更有效地激发推理能力。我们提出的JustGRPO方法虽极简却效果惊人(如在GSM8K上达到89.1%准确率),同时完整保留了dLLMs的并行解码能力。项目页面:https://nzl-thu.github.io/the-flexibility-trap
近期,多模态大语言模型(MLLMs)在离线视频理解方面取得了显著进展。然而,将其能力扩展至流式视频输入仍面临挑战,因为现有模型难以同时保持稳定的理解性能、实时响应能力与低GPU内存开销。为解决这一难题,我们提出HERMES——一种无需重新训练的新型架构,可实现流式视频的实时精准理解。基于对注意力机制的原理性探究,我们将KV缓存概念化为跨多粒度封装视频信息的层次化记忆框架。在推理过程中,HERMES通过复用紧凑的KV缓存,实现在资源受限条件下的高效流式理解。值得注意的是,HERMES在用户查询到达时无需进行辅助计算,从而保障了连续视频流交互的实时响应,其首令牌生成速度较此前最优技术提升10倍。即使相比均匀采样将视频令牌数量削减高达68%,HERMES在所有基准测试中仍实现相当或更优的准确率,并在流式数据集上取得最高11.4%的性能提升。
视觉-语言-动作(VLA)模型在机器人操作任务中展现出潜力,但往往难以泛化至新指令或复杂多任务场景。我们发现当前训练范式存在一个关键缺陷:目标驱动的数据收集会导致数据集偏差。这类数据集中,仅凭视觉观察即可高度预测语言指令,导致指令与动作之间的条件互信息趋近于零——这一现象被我们称为"信息坍缩"。其后果是模型退化为仅依赖视觉的策略,忽略语言约束并在分布外(OOD)场景中失效。为此,我们提出BayesianVLA新型框架,通过贝叶斯分解强制实现指令跟随。通过引入可学习的潜在动作查询,我们构建双分支架构来同时估计仅视觉先验p(a|v)和语言条件后验π(a|v,l),进而优化策略以最大化动作与指令的条件点间互信息(PMI)。该目标函数有效惩罚视觉捷径,并对显式解释语言指令的动作给予奖励。在不需新数据的情况下,BayesianVLA显著提升泛化能力。在SimplerEnv和RoboCasa上的大量实验表明该方法取得显著进步,其中在挑战性OOD基准SimplerEnv上提升11.3%,验证了我们所提方法在动作中鲁棒扎根语言的能力。
我们提出“沙箱内大语言模型”(LLM-in-Sandbox),使大语言模型能够在代码沙箱(即虚拟计算机)中进行探索,以激发其在非代码领域的通用智能。我们首先证明,无需额外训练的强大LLM即可展现泛化能力,利用代码沙箱处理非代码任务。例如,LLM能自主访问外部资源获取新知识,利用文件系统处理长文本语境,并执行脚本来满足格式要求。我们进一步表明,通过沙箱内大语言模型强化学习(LLM-in-Sandbox-RL),可以增强这些智能体能力——该方法仅使用非智能体数据来训练模型进行沙箱探索。实验表明,无论是免训练模式还是后训练模式下的LLM-in-Sandbox,在数学、物理、化学、生物医学、长文本理解及指令遵循等任务中均实现了稳健的泛化能力。最后,我们从计算和系统两个维度分析了LLM-in-Sandbox的效率,并将其开源为Python包以促进实际应用部署。
表征自编码器(RAE)通过在高层语义隐空间中进行训练,已在ImageNet的扩散建模中展现出独特优势。本研究旨在探究该框架能否扩展至大规模自由格式的文生图(T2I)生成领域。我们首先基于冻结的表征编码器(SigLIP-2),通过使用网络数据、合成数据及文本渲染数据进行训练,将RAE解码器的规模扩展至超越ImageNet范畴。研究发现:虽然扩大规模能提升整体保真度,但针对文本等特定领域需采用定向数据组合策略。随后我们系统验证了原为ImageNet设计的RAE架构选择,发现规模扩展会简化框架:尽管维度相关的噪声调度仍至关重要,但宽扩散头、噪声增强解码等复杂结构在大规模场景下收效甚微。基于此简化框架,我们在0.5B至9.8B参数规模的扩散Transformer上对RAE与最先进的FLUX VAE进行对照实验。结果表明:在所有模型规模下,RAE在预训练阶段持续优于VAE;在高质量数据集上微调时,VAE模型在64轮迭代后出现灾难性过拟合,而RAE模型在256轮迭代中保持稳定且性能持续提升。所有实验均表明,基于RAE的扩散模型具有更快的收敛速度和更优的生成质量,证明RAE是大规模T2I生成中比VAE更简洁高效的基座。此外,由于视觉理解与生成可在共享表征空间中运行,多模态模型能直接对生成隐变量进行推理,这为构建统一模型开辟了新路径。
基于扩散的语言模型(DLLMs)相较于自回归(AR)模型具有非顺序的块式生成能力和更丰富的数据复用特性,但在同等资源预算下,现有代码DLLMs仍落后于强大的AR基线模型。我们通过一项受控研究重新审视这一设定,提出了Stable-DiffCoder——一种复用Seed-Coder架构、数据及训练流程的块扩散代码模型。为实现高效知识学习和稳定训练,我们引入了块扩散持续预训练(CPT)阶段,并通过定制化的预热策略与块级裁剪噪声调度进行增强。在相同数据和架构下,Stable-DiffCoder在广泛的代码基准测试中整体优于其AR对应模型。此外,仅依靠CPT和监督微调阶段,该模型性能已超越多种约80亿参数的AR与DLLMs,证明基于扩散的训练能单独提升代码建模质量。值得注意的是,扩散式任意顺序建模可增强编辑与推理场景下的结构化代码建模能力,并通过数据扩增惠及低资源编程语言。
像素级能力对于构建交互式智能系统至关重要。然而,由于复杂的区域级编码器、专业化的分割解码器以及相互冲突的训练目标,像素级多模态大语言模型(MLLMs)的扩展仍面临挑战。为解决这些问题,我们提出SAMTok——一种离散掩码标记器,可将任意区域掩码转换为两种特殊标记,并以高保真度利用这些标记重建掩码。通过将掩码视为新型语言标记,SAMTok使基础MLLMs(如QwenVL系列)能够通过标准下一标记预测和简单强化学习掌握像素级能力,无需修改模型架构或设计专用损失函数。SAMTok基于SAM2构建,使用掩码编码器和残差向量量化器在2.09亿个多样化掩码上进行训练,生成离散、紧凑且信息丰富的标记。借助500万个经SAMTok格式化的掩码理解与生成数据样本,QwenVL-SAMTok在区域描述、区域视觉问答、指代对话、指代分割、场景图解析和多轮交互分割任务中达到业界最优或相当水平。我们进一步引入文本答案匹配奖励机制,通过高效强化学习实现掩码生成,在GRES和GCG基准测试中取得显著提升。实验结果表明,该范式为MLLMs赋予强大像素级能力提供了一条可扩展且简洁的路径。代码与模型已开源。
如何利用人工智能为科学问题探索新的最优解?先前关于测试时扩展的研究(如AlphaEvolve)通过调用冻结的大语言模型进行搜索。我们则在测试时实施强化学习,使大语言模型能够持续训练,但此时训练内容专门针对待测问题。这种持续学习形式非常特殊,其目标是产生一个卓越解决方案而非多个平均表现良好的方案,并且要解决当前特定问题而非泛化至其他问题。因此,我们的学习目标和搜索子程序被设计为优先考虑最具潜力的解决方案。我们将这种方法称为"测试时训练探索法"。遵循先前研究,我们聚焦于具有连续奖励的问题。我们在数学、GPU内核工程、算法设计和生物学等领域尝试的所有问题上均报告结果。TTT探索法在几乎所有领域都创造了新的最优解纪录:(i)埃尔德什最小重叠问题与自相关不等式;(ii)GPUMode内核竞赛(比现有技术快达2倍);(iii)往届AtCoder算法竞赛;(iv)单细胞分析中的去噪问题。我们的解决方案均经过专家或组织方审核。与之前需要封闭前沿模型的最佳结果不同,我们所有成果均通过开源模型OpenAI gpt-oss-120b实现,并可通过公开代码复现。测试时训练过程使用Thinking Machines公司的Tinker API完成,每个问题仅需数百美元成本。
本报告推出Qwen3-TTS系列——一组具备多语言、可控性、强鲁棒性及流式生成能力的高阶文本转语音模型。该系列支持业界领先的3秒语音克隆与描述式控制技术,既能生成全新音色,又可实现对输出语音的细粒度调控。基于覆盖10种语言、超500万小时的语音数据训练,Qwen3-TTS采用双轨语言模型架构实现实时合成,并配备两款语音分词器:1)Qwen-TTS-Tokenizer-25Hz为单码本编解码器,侧重语义内容表征,可与Qwen-Audio无缝集成,通过分块DiT实现流式波形重建;2)Qwen-TTS-Tokenizer-12Hz采用12.5Hz16层多码本结构与轻量因果卷积网络,实现极致码率压缩与超低延迟流式生成,首包响应时间达97毫秒。大量实验表明,该系列在多语言TTS测试集、InstructTTSEval及长语音测试集等主客观评测中均达到顶尖水平。为促进社区研发,我们以Apache 2.0协议开源全部分词器与模型。
人工智能代理可能很快将具备在多元领域自主完成具有长期价值的任务能力。当前基准测试要么未能衡量真实世界任务,要么难度不足以有效评估前沿模型。为此,我们推出Terminal-Bench 2.0:一个精心设计的硬基准测试集,包含89项基于真实工作流程问题的计算机终端环境任务。每项任务均设有独特环境、人工编写的解决方案以及用于验证的全面测试。数据显示前沿模型与代理在该基准测试中得分低于65%,我们通过错误分析指出了模型与代理的改进方向。现公开发布数据集与评估工具包以助力开发者与研究人员后续工作,详见https://www.tbench.ai/。
本文提出了名为OpenVision 3的先进视觉编码器系列,该模型通过学习单一统一的视觉表征,可同时服务于图像理解与图像生成任务。我们的核心架构简洁明了:将VAE压缩后的图像潜变量输入ViT编码器,并训练其输出以支持两个互补功能。首先,编码器输出被传递至ViT-VAE解码器以重建原始图像,促使表征捕捉生成式结构;其次,同一表征通过对比学习和图像描述目标进行优化,从而增强语义特征。通过在共享潜空间中联合优化重建驱动与语义驱动的信号,编码器学习到能协同作用并跨领域泛化的表征。我们通过冻结编码器的广泛下游评估验证了这一统一设计:在多模态理解任务中,将编码器接入LLaVA-1.5框架后,其性能与标准CLIP视觉编码器相当(如SeedBench上62.4对62.2,POPE上83.7对82.9);在生成任务中,基于RAE框架的测试显示本模型显著超越标准CLIP编码器(如ImageNet上gFID指标为1.89对2.54)。本研究有望推动统一建模方向的后续探索。
组合图像检索(CIR)是多模态理解领域一项关键而复杂的任务。当前CIR基准测试通常存在查询类别有限的问题,难以反映现实场景的多样化需求。为弥补这一评估缺口,我们通过图像编辑技术实现对修改类型与内容的精准控制,构建出能够跨广泛类别合成查询的流水线。基于此流水线,我们建立了新型细粒度CIR基准测试EDIR,该数据集包含5,000个高质量查询,按五大主类别和十五个子类别进行结构化组织。通过对13个多模态嵌入模型的全面评估,我们发现存在显著的能力断层:即使最先进的模型(如RzenEmbed和GME)也难以在所有子类别中保持稳定表现,这凸显了我们基准测试的严苛性。通过对比分析,我们进一步揭示了现有基准测试的固有局限,如模态偏差和类别覆盖不足等问题。此外,领域内训练实验验证了我们基准测试的可行性。该实验通过区分“可通过定向数据解决”与“暴露当前模型架构固有缺陷”的类别,明晰了任务挑战的实质。
现代人工智能系统的性能从根本上受限于其底层内核的质量,这些内核将高级算法语义转化为底层硬件操作。实现接近最优的内核需要专家级的硬件架构和编程模型理解能力,使得内核工程成为关键但 notoriously 耗时且难以规模化的过程。基于大语言模型(LLM)的智能体技术为内核自动生成与优化开辟了新可能:LLM擅长压缩难以形式化的专家级内核知识,而智能体系统通过将内核开发转化为迭代的、反馈驱动的循环,进一步实现了可扩展的优化。该领域已取得快速进展,但目前研究仍呈碎片化状态,缺乏对LLM驱动内核生成的系统性视角。本文通过构建结构化综述填补这一空白,系统梳理了基于LLM的方法与智能体优化流程,汇编了支撑该领域学习与评估的数据集和基准测试,并进一步指出关键开放挑战与未来研究方向,旨在为新一代自动化内核优化建立全面参考框架。为追踪该领域发展,我们在GitHub上维护开源项目库:https://github.com/flagos-ai/awesome-LLM-driven-kernel-generation。
任务进度估算需要对长期动态进行推理,而非简单识别静态视觉内容。尽管现代视觉语言模型在描述可见内容方面表现出色,但其能否通过局部观察推断任务进度仍不明确。为此,我们推出Progress-Bench基准测试体系,用于系统评估视觉语言模型的进度推理能力。除基准测试外,我们进一步通过免训练的提示工程和基于ProgressLM-45K精选数据集的训练方法,探索了类人类的两阶段进度推理范式。对14个视觉语言模型的实验表明,大多数模型尚未具备任务进度估算能力,表现出对演示模态和视角变化的敏感性,且难以处理不可回答的情况。虽然强制结构化进度推理的免训练提示方法能带来有限且模型依赖的性能提升,但基于训练的ProgressLM-3B模型即使在小规模架构下,也能在与评估任务完全无关的任务集上实现持续改进。进一步分析揭示了典型错误模式,并阐明了进度推理成功或失败的具体条件及原因。
由于标注数据稀缺,视频抠图模型在真实世界视频中的泛化能力仍面临重大挑战。为此,我们提出视频掩码转蒙版模型(VideoMaMa),通过利用预训练视频扩散模型,将粗粒度分割掩码转化为像素级精确的阿尔法蒙版。尽管仅使用合成数据训练,VideoMaMa在真实影像上展现出强大的零样本泛化能力。基于此能力,我们开发了可扩展的大规模视频抠图伪标注流程,并构建了视频通用抠图数据集(MA-V),该数据集为超过5万段涵盖多样场景与运动的真实视频提供了高质量抠图标注。为验证数据集有效性,我们在MA-V上对SAM2模型进行微调得到SAM2-Matte模型,其在真实场景视频上的鲁棒性优于基于现有抠图数据集训练的同类模型。这些发现凸显了大规模伪标注视频抠图的重要性,并展示了生成先验与易得分割线索如何推动视频抠图研究的可扩展进展。
近期视频生成模型展现出卓越的能力,能够捕捉复杂的物理交互和场景随时间演变的规律。为利用其时空先验知识,机器人研究领域已尝试将视频模型应用于策略学习,但这类方法通常需要多阶段后训练和新增动作生成架构组件,导致系统复杂性增加。本研究提出Cosmos策略——一种通过单阶段后训练将大型预训练视频模型(Cosmos-Predict2)适配为高效机器人策略的简洁方案。该方案仅需在目标平台采集的机器人演示数据上进行训练,无需修改模型架构。Cosmos策略通过视频模型的潜在扩散过程,学习直接生成编码为潜在帧的机器人动作,充分利用模型的预训练先验知识和核心学习算法来捕捉复杂的动作分布。此外,该方法还能生成同样编码为潜在帧的未来状态图像与价值函数(预期累积奖励),从而在测试阶段通过基于模型的轨迹规划提升任务成功率。实验表明,Cosmos策略在LIBERO和RoboCasa仿真基准测试中分别达到98.5%和67.1%的平均成功率,实现领先性能;在具挑战性的真实世界双手操作任务中取得最高平均分,显著优于从头训练的扩散策略、基于视频模型的策略以及在相同机器人演示数据上微调的前沿视觉-语言-动作模型。值得注意的是,给定策略推演数据后,Cosmos策略还能通过经验学习优化其世界模型与价值函数,并借助基于模型的规划在复杂任务中实现更高成功率。相关代码、模型及训练数据已发布于https://research.nvidia.com/labs/dir/cosmos-policy/。
将透视图像与视频提升为360°全景图可实现沉浸式3维场景生成。现有方法通常依赖于透视图像与等距柱状投影空间之间的显式几何对齐,但这需要已知相机参数,限制了该方法在缺乏准确校准数据的真实场景中的应用。我们提出360Anything——一个基于预训练扩散变换器的无几何框架。通过将透视输入与全景目标简化为令牌序列,360Anything以纯数据驱动方式学习透视到等距柱状投影的映射,无需相机信息。我们的方法在图像与视频的透视转360°生成任务上均达到最先进性能,优于使用真实相机参数的现有方案。我们还发现等距柱状投影边界接缝问题的根源在于VAE编码器的零填充操作,并引入环形潜在编码以实现无缝生成。最后,我们在零样本相机视场角与朝向估计基准测试中展现出竞争力,证明了360Anything对几何关系的深层理解及其在计算机视觉任务中的广泛适用性。更多结果请访问https://360anything.github.io/。
生成动态3D对象是众多应用的核心技术,然而当前最先进的研究成果往往因其配置限制、运行耗时或质量局限而难以投入实际应用。我们推出ActionMesh这一生成模型,能够以前馈方式直接生成可直接投入生产的"动态"3D网格。受早期视频模型启发,我们的核心创新在于改造现有3D扩散模型,引入时间轴维度,构建出名为"时序3D扩散"的框架。具体而言:首先调整3D扩散阶段,使其生成代表时序变化且相互独立的3D形状序列隐变量;其次设计时序3D自编码器,将独立形状序列转换为预定义参考形状的对应形变,从而构建动画。通过整合这两个组件,ActionMesh可从单目视频、文本描述甚至带动画提示词的静态3D网格等不同输入生成动态3D网格。相较于现有方法,我们的方案具有速度快、无需骨骼绑定且保持拓扑一致等优势,支持快速迭代并实现纹理映射和重定向等无缝应用。在标准视频转4D基准测试(Consistent4D、Objaverse)中,我们的模型在几何精度与时序一致性方面均达到最先进水平,证明其能够以前所未有的速度和质量生成动态3D网格。
将多模态大语言模型(MLLMs)泛化至新兴视频领域对实际应用至关重要,但由于标注数据稀缺,这一目标仍面临挑战。虽然情境学习(ICL)提供了一种免训练的适配路径,但传统方法依赖大规模标注库,这在工业或手术等专业场景中往往难以实现,因其需要专家标注。为弥补这一差距,我们提出VIOLA(最小标注视频情境学习框架),该标签高效框架将少量专家监督与海量未标注数据协同整合。首先,为在严格标注预算下实现效率最大化,我们提出密度不确定性加权采样法。与可能选择视觉异常值的传统多样性或不确定性策略不同,本方法通过密度估计同时筛选出兼具多样性、代表性和信息量的样本。其次,为利用剩余未标注数据并避免噪声传播,我们构建混合样本库,引入置信度感知检索与置信度感知提示机制。这些方法显式建模标签可靠性,基于相似度与置信度的复合分数检索示例,并使MLLM能自适应区分经过验证的真实标签与含噪声的伪标签。通过在四个MLLM上对九个多样化基准进行大量实验表明,本框架在低资源环境下显著优于多种基线方法,能以最小标注成本实现鲁棒的领域适配。
大型语言模型(LLMs)正日益被用作人类模拟器,既用于评估对话系统,也用于生成微调数据。然而,简单的"扮演用户"式提示往往产生冗长、不真实的语句,这凸显了对所谓用户代理智能体进行系统性评估的必要性。我们推出MIRRORBENCH——一个可复现、可扩展的基准测试框架,该框架仅基于用户代理在不同对话任务中生成类人用户语句的能力进行评估,并明确与下游任务成功度解耦。MIRRORBENCH采用模块化执行引擎,具备类型化接口、元数据驱动注册机制、多后端支持、缓存功能及强可观测性。该系统支持可插拔的用户代理、数据集、任务和评估指标,使研究人员能在统一且考虑方差影响的测试环境中评估任意模拟器。我们整合了三种词汇多样性指标(MATTR、YULE'S K和HD-D)和三种基于LLM评判的指标(GTEval、成对不可区分性及规则推理评估)。在四个开放数据集上的测试表明,MIRRORBENCH能生成方差感知结果,并系统性揭示了用户代理与真实人类用户之间的差距。该框架为开源项目,提供简洁命令行界面用于运行实验、管理配置与缓存以及生成报告。框架访问地址:https://github.com/SAP/mirrorbench。
我们推出dla-ideal-solver——一个基于Numba加速Python的高性能二维扩散限制聚集(DLA)模拟框架。通过即时编译技术,该框架在保持高级灵活性的同时,实现了与传统静态实现相媲美的计算吞吐量。我们研究了不同注入几何结构与行走者浓度下的拉普拉斯生长不稳定性。分析证实,在稀薄区域标准分形维数D_f≈1.71具有稳健性,符合Witten-Sander普适类特征。然而,在高密度环境中我们观察到向类伊甸园紧凑生长模式(D_f≈1.87)的明显跨越,这归因于屏蔽长度的饱和效应。除标准质量-半径标度分析外,我们采用广义Rényi维数与空隙度指标来量化聚集体的单分形特征与空间异质性。本研究为探索非平衡统计力学中的相变建立了可复现的开源测试平台。
随着大语言模型在教育应用中的日益普及,亟需基于证据的方法来设计和评估能够产生个性化且教学对齐输出的提示词。本研究提出一种可推广的系统化提示词评估方法,通过对结构化对话活动中LLM生成的后续问题进行分析来验证其有效性。研究设计并测试了六种提示模板,这些模板融合了成熟的提示工程模式,每种提示均侧重不同的教学策略。通过适用于各类教育应用的锦标赛式评估框架,对提示模板进行了比较研究。该锦标赛采用Glicko2评分系统,由八位评委从格式规范性、对话支持度和学习者适配性三个维度对问题组进行评价。数据来源于三个不同教育场景中120组真实用户交互记录。结果显示,专注于策略性阅读的提示模板在 pairwise 比较中以81%至100%的胜率显著优于其他模板。该优胜提示融合了人物角色设定和情境管理模式,旨在支持元认知学习策略(如自主导向学习)。本方法为教育技术研究者展示了如何系统评估并优化提示设计,推动教育应用从临时性的提示工程向基于证据的提示开发范式转变。
尽管大语言模型展现出卓越能力,但其不可靠性仍是部署于高风险领域的关键障碍。本综述描绘了应对这一挑战的功能演进路径:不确定性从被动诊断指标演变为指导实时模型行为的主动控制信号。我们通过三大前沿领域展示不确定性如何作为主动控制信号发挥作用:在高级推理中优化计算并触发自我修正;在自主智能体中调控工具使用与信息获取的元认知决策;在强化学习中抑制奖励破解并通过内在奖励实现自我改进。通过将上述进展锚定于贝叶斯方法和 conformal 预测等新兴理论框架,我们为这一变革性趋势提供了统一视角。本综述通过全面梳理、批判性分析与实用设计模式论证指出:掌握不确定性这一新趋势对于构建可扩展、可靠、可信的新一代人工智能至关重要。
人工智能体正从被动语言模型快速演进为能执行复杂多步任务的自主系统。然而,其在失败情况下的过度自信仍是高风险场景部署的根本障碍。现有针对静态单轮输出的校准方法无法解决智能体系统的独特挑战,例如任务轨迹中的误差累积、外部工具的不确定性以及不透明的故障模式。为应对这些挑战,我们首次提出"智能体置信度校准"问题,并创新性地提出全轨迹校准框架——一种通过提取智能体完整轨迹中从宏观动态到微观稳定性的丰富过程特征的新型诊断框架。该框架采用简洁可解释的模型,在八项基准测试中,跨多种大语言模型和不同智能体框架,持续在校准度与判别力上超越强基线方法。除性能优势外,HTC还带来三大突破:通过揭示故障背后的信号提供可解释性,无需重新训练即可跨领域应用的迁移能力,以及通过通用智能体校准器实现的泛化能力——该校准器在跨域GAIA基准测试中取得了最佳校准效果(最低ECE)。这些成果共同确立了以过程为核心的置信度校准新范式,为诊断和提升人工智能体可靠性提供了系统框架。
尽管人工智能代理在长程推理中展现出卓越能力,但其可靠性深受"幻觉螺旋"效应制约——早期认知误差会不可逆地持续扩散。现有方法面临两难困境:不确定性量化(UQ)方法通常作为被动传感器,仅能诊断风险而无法处置;自反思机制则易陷入持续或盲目的修正循环。为弥合这一鸿沟,我们提出统一的双过程代理化UQ(AUQ)框架,将言语化不确定性转化为主动式双向控制信号。该架构包含两个互补机制:系统1(不确定性感知记忆UAM)通过隐式传播言语化置信度与语义解释来避免盲目决策;系统2(不确定性感知反思UAR)则将这些解释作为理性线索,仅在必要时触发靶向式推理时解析。这种设计使代理能动态平衡高效执行与深度审议。在闭环基准测试与开放式深度研究任务上的大量实验表明,我们的无训练方法实现了卓越的性能与轨迹级校准。我们相信这一原则性框架AUQ是构建可靠智能代理的重要突破。
我们在IBM量子硬件上实现并对Violaris提出的电路族进行基准测试,该电路族用于估计操作型分支间通信见证量,其定义为通过编译的维格纳朋友式电路产生的经典测量记录中的关联性。我们以单电路内的寄存器间消息传输模式(而非物理信号传输)实现了该协议的五量子比特实例,并评估了其在真实设备噪声和编译约束下的行为。该电路编码了观测者子系统的分支条件演化,其动力学依赖于控制量子比特,随后通过受控传输操作来探测条件测量上下文之间的关联性。 在使用ibm_fez后端执行20000次测量的实验中,我们观察到基于粒子数的可见度为0.877,沿正交轴的相干见证量分别为0.840和-0.811,相位敏感幅度约为1.17。虽然可见度度量对某些类型的退相不敏感,但相干见证量提供了对非对角噪声的互补敏感性。 本研究并非为了检验或区分量子力学的各种诠释,而是提供了一个可复现的操作约束流程,用于评估非理想信道相对于校准设备噪声的可检测性。