每日精選AI研究論文及翻譯
原生電腦使用代理(CUA)的發展標誌著多模態人工智慧的重大飛躍。然而,其潛力目前受制於靜態資料擴展的侷限性。現有範式主要依賴被動模仿靜態資料集,難以捕捉長時程電腦任務中固有的複雜因果動態。本研究提出EvoCUA——一種原生電腦使用代理模型。有別於靜態模仿,EvoCUA將資料生成與策略優化整合為自我維持的演化循環。為緩解資料稀缺問題,我們開發了可驗證合成引擎,能自主生成多樣化任務並配備可執行的驗證機制。為實現大規模經驗獲取,我們設計了可擴展基礎架構,可協調數萬個非同步沙箱推演。基於這些海量軌跡資料,我們提出迭代演化學習策略來有效內化經驗。該機制透過識別能力邊界動態調控策略更新——強化成功操作模式的同時,將失敗軌跡轉化為透過錯誤分析與自我修正產生的豐富監督信號。在OSWorld基準測試中的實證評估表明,EvoCUA達成56.7%的成功率,創下開源模型的新標竿。值得注意的是,EvoCUA顯著超越先前最佳開源模型OpenCUA-72B(45.0%),並勝過UI-TARS-2(53.1%)等領先的閉源權重模型。關鍵在於,我們的結果驗證了該方法的泛化能力:這種基於經驗學習驅動的演化範式,能在不同規模的基礎模型中產生持續效能提升,為推進原生代理能力開闢了穩健且可擴展的路徑。
擴散式大型語言模型(dLLMs)突破了傳統LLMs嚴格的從左到右生成限制,實現了以任意順序生成標記的能力。直觀來看,這種靈活性意味著其解空間嚴格包含了固定自回歸軌跡,理論上為數學和程式設計等通用任務釋放了更優越的推理潛力。因此,已有大量研究利用強化學習(RL)來激發dLLMs的推理能力。本文揭示了一個反直覺的現實:當前形式的任意順序生成非但沒有擴展dLLMs的推理邊界,反而使其縮窄。我們發現dLLMs傾向於利用這種順序靈活性來繞過對探索至關重要的高不確定性標記,導致解空間過早坍縮。這一觀察對現有dLLMs的RL方法前提提出了挑戰——這些方法往往為維持此靈活性而投入大量複雜度(如處理組合軌跡和難解似然)。我們證實,通過刻意放棄任意順序生成並改用標準的群組相對策略優化(GRPO),能更有效地激發推理能力。我們提出的JustGRPO方法極簡卻效果驚人(如在GSM8K達到89.1%準確率),同時完整保留了dLLMs的平行解碼能力。項目頁面:https://nzl-thu.github.io/the-flexibility-trap
近期多模態大型語言模型(MLLMs)在離線影片理解方面取得顯著進展,然而將其能力擴展至串流影片輸入仍面臨挑戰——現有模型難以同時維持穩定的理解效能、即時回應能力與低GPU記憶體負載。為解決此難題,我們提出HERMES創新的免訓練架構,可實現串流影片的精準即時理解。基於注意力機制的結構性分析,我們將KV快取概念化為跨多粒度封裝影片資訊的階層式記憶框架。在推理過程中,HERMES透過重複使用精簡化的KV快取,於資源限制下實現高效串流理解。值得注意的是,HERMES在使用者查詢送達時無需輔助計算,從而保證連續影片串流互動的即時回應,其首個標記生成時間(TTFT)較先前SOTA技術提升10倍速。即使相比均勻採樣最多減少68%的影片標記,HERMES在所有基準測試中仍展現出更優或相當的準確度,並在串流資料集上實現最高11.4%的效能提升。
視覺-語言-動作(VLA)模型在機器人操作領域展現出潛力,但常難以泛化至新指令或複雜的多任務場景。我們發現當前訓練範式存在一個關鍵缺陷:目標驅動的資料收集會導致數據集偏差。這類數據集中,語言指令僅從視覺觀測即可高度預測,致使指令與動作之間的條件互信息趨於消失——我們稱此現象為「信息坍縮」。其結果是模型退化為純視覺策略,忽略語言約束並在分佈外(OOD)設定下失效。為解決此問題,我們提出BayesianVLA框架,透過貝葉斯分解強制實現指令跟隨。通過引入可學習的潛在動作查詢,我們構建雙分支架構以同時估計純視覺先驗分佈 p(a|v) 和語言條件後驗分佈 π(a|v, ℓ)。隨後優化策略以最大化動作與指令的條件點間互信息(PMI)。該目標函數有效懲罰視覺捷徑思維,並獎勵能顯式解釋語言命令的動作。無需新增數據,BayesianVLA即顯著提升泛化能力。在SimplerEnv與RoboCasa上的大量實驗證實了顯著增益,其中在具挑戰性的OOD SimplerEnv基準測試中提升達11.3%,驗證了本方法在動作中穩健紮根語言的能力。
我們提出「沙盒中的大語言模型」(LLM-in-Sandbox)方法,使大語言模型能在程式碼沙盒(即虛擬電腦環境)中進行探索,從而激發其在非程式碼領域的通用智慧。我們首先證明,無需額外訓練的強效大語言模型即具備泛化能力,可將程式碼沙盒應用於非程式碼任務。例如,大語言模型能自主存取外部資源以獲取新知識、利用檔案系統處理長上下文,並執行腳本以滿足格式要求。我們進一步展示,透過「沙盒中的大語言模型強化學習」(LLM-in-Sandbox-RL),僅使用非代理資料即可訓練模型進行沙盒探索,從而增強這些代理能力。實驗表明,無論是免訓練設定還是訓練後設定,LLM-in-Sandbox 在數學、物理、化學、生物醫學、長上下文理解及指令遵循等領域均展現出穩健的泛化能力。最後,我們從計算與系統角度分析 LLM-in-Sandbox 的效率,並將其開源為 Python 套件以促進實際部署。
表徵自動編碼器(RAE)透過在高維語意潛在空間中訓練,已在ImageNet的擴散建模中展現出獨特優勢。本研究探討此框架能否擴展至大規模自由格式的文生圖(T2I)生成。我們首先基於凍結的表徵編碼器(SigLIP-2),利用網路數據、合成數據及文字渲染數據擴展RAE解碼器的規模,發現雖然規模化能提升整體擬真度,但針對文字等特定領域仍需精準的數據組合策略。接著我們嚴格驗證原為ImageNet設計的RAE架構選擇,發現規模化會簡化框架:維度相關的噪聲調度仍至關重要,但擴散頭寬度設計和噪聲增強解碼等複雜結構在大規模下效益微乎其微。基於此簡化框架,我們在0.5B至9.8B參數規模的擴散轉換器上,對RAE與最先進的FLUX VAE進行對照實驗。RAE在所有模型規模的預訓練階段均持續優於VAE;而在高質量數據集上微調時,VAE模型在64個周期後出現災難性過擬合,RAE模型則能穩定訓練至256個周期且性能持續領先。所有實驗表明,基於RAE的擴散模型具有更快的收斂速度和更優的生成質量,證明RAE是大規模T2I生成中比VAE更簡潔強效的基礎架構。此外,由於視覺理解與生成可共享表徵空間,多模態模型能直接對生成潛在表徵進行推理,為統一模型開闢了新可能性。
基於擴散機制的語言模型(DLLMs)相較自迴歸(AR)模型具有非順序的塊狀生成能力和更豐富的數據復用特性,但在同等算力預算下,現有程式碼DLLMs仍落後於強勁的AR基準模型。我們通過受控實驗重新審視這一設定,提出Stable-DiffCoder——一種沿用Seed-Coder架構、數據與訓練流程的塊擴散程式碼模型。為實現高效的知識學習與穩定訓練,我們引入塊擴散持續預訓練(CPT)階段,並通過定制的熱身策略與塊級噪聲裁剪調度進行增強。在相同數據與架構下,Stable-DiffCoder在廣泛的程式碼基準測試中整體表現優於其AR對應模型。更重要的是,僅依靠CPT與監督微調階段,該模型性能便超越多種約80億參數的AR與DLLMs模型,證明基於擴散的訓練能單獨提升程式碼建模質量。此外,擴散模型的任意順序建模能力可增強結構化程式碼的編輯與推理效果,並通過數據擴增提升低資源程式語言的建模性能。
像素級能力對於建構互動式智慧系統至關重要。然而,由於複雜的區域級編碼器、專用的分割解碼器以及不相容的訓練目標,像素級多模態大型語言模型(MLLMs)仍難以擴展。為解決這些挑戰,我們提出SAMTok——一種離散遮罩標記器,可將任意區域遮罩轉換為兩個特殊標記,並以高保真度利用這些標記重建遮罩。通過將遮罩視為新型語言標記,SAMTok使基礎MLLMs(如QwenVL系列)能透過標準的下一個標記預測和簡單的強化學習來掌握像素級能力,無需修改模型架構或設計專用損失函數。SAMTok基於SAM2構建,使用遮罩編碼器和殘差向量量化器在2.09億個多樣化遮罩上進行訓練,以產生離散、緊湊且資訊豐富的標記。透過500萬個SAMTok格式的遮罩理解與生成數據樣本,QwenVL-SAMTok在區域描述、區域視覺問答、接地對話、指代表達分割、場景圖解析和多輪互動分割任務中達到業界頂尖或相當的效能。我們進一步引入文本答案匹配獎勵機制,實現高效的遮罩生成強化學習,在GRES和GCG基準測試中取得顯著提升。實驗結果證明,此方法為MLLMs賦予強大像素級能力提供了一種可擴展且簡潔的範式。我們的程式碼與模型均已開源。
如何利用人工智能探索科学问题的新最优解?先前关于测试时扩展的研究(如AlphaEvolve)通过调用冻结的大语言模型进行搜索。我们则在测试时实施强化学习,使大语言模型能够持续训练,且训练内容专门针对测试问题。这种持续学习形式非常特殊,其目标是产出单个优质解决方案而非追求平均表现,并专注于解决当前问题而非泛化至其他问题。因此,我们的学习目标和搜索子程序均优先考虑最具潜力的解决方案。我们将该方法命名为"测试时训练探索法(TTT-Discover)"。沿袭前人研究,我们聚焦于具有连续奖励的问题,并在数学、GPU内核工程、算法设计和生物学等领域对所有尝试过的问题进行结果汇报。TTT-Discover在几乎所有领域都创造了新的最优记录:(i)埃尔德什最小重叠问题与自相关不等式;(ii)GPUMode内核竞赛(比现有技术快达2倍);(iii)历史AtCoder算法竞赛;(iv)单细胞分析中的去噪问题。我们的解决方案均经过专家或主办方审核。与先前需要封闭前沿模型才能实现的最佳结果不同,我们所有成果均采用开源模型OpenAI gpt-oss-120b达成,并可通过公开代码复现。测试时训练通过Thinking Machines公司的Tinker API运行,每个问题的成本仅需数百美元。
本报告正式推出Qwen3-TTS系列模型,这是一组具备多语言支持、可控性强、鲁棒性优异且支持流式生成的先进文本转语音模型。该系列实现了业界领先的3秒语音克隆与描述性控制功能,既能生成全新音色,也可对输出语音进行细粒度调节。基于覆盖10种语言、总时长超500万小时的语音数据训练,Qwen3-TTS采用双轨语言模型架构实现实时合成,并配备两款语音分词器:1)Qwen-TTS-Tokenizer-25Hz作为单码本编解码器侧重语义内容表征,可与Qwen-Audio无缝集成,通过分块式DiT实现流式波形重建;2)Qwen-TTS-Tokenizer-12Hz采用12.5Hz频率的16层多码本设计与轻量因果卷积网络,在实现极致码率压缩的同时支持超低延迟流式生成,首包响应时间达97毫秒。大量实验表明,该系列在多项主客观评测基准(如多语言TTS测试集、InstructTTSEval及长语音测试集)中均达到业界最优水平。为促进社区研发,我们已将全部分词器与模型基于Apache 2.0协议开源发布。
人工智能代理或将在不久的将来具备自主完成跨领域高价值长期任务的能力。当前基准测试要么未能衡量真实场景任务,要么难度不足以有效评估前沿模型。为此,我们推出Terminal-Bench 2.0:一个精心设计的硬基准测试集,包含89项受真实工作流程启发的计算机终端环境任务。每项任务均具备独特环境设置、人工编写的解决方案以及用于验证的全面测试。我们的研究表明,前沿模型和智能体在该基准测试中得分低于65%,并通过错误分析指出了模型与代理的改进方向。我们已公开发布数据集和评估工具包,以助力开发者和研究人员的后续工作,访问地址:https://www.tbench.ai/。
本文提出了一系列先进视觉编码器——OpenVision 3,该模型通过学习单一且统一的视觉表征,可同时服务于图像理解与图像生成任务。我们的核心架构简洁明了:将VAE压缩后的图像潜变量输入ViT编码器,并训练其输出以支持两种互补功能。首先,编码器输出被传递至ViT-VAE解码器以重建原始图像,促使表征捕捉生成式结构;其次,通过对比学习和图像描述目标对同一表征进行优化,强化语义特征。通过在共享潜空间中联合优化重建驱动与语义驱动的信号,编码器学习到的表征能在两种任务范式中实现协同与良好泛化。我们通过冻结编码器的大量下游评估验证了这一统一设计:在多模态理解任务中,将编码器接入LLaVA-1.5框架后,其性能与标准CLIP视觉编码器相当(如SeedBench得分62.4对62.2,POPE得分83.7对82.9);在生成任务中,基于RAE框架的测试表明,本模型显著优于标准CLIP编码器(如ImageNet上的gFID指标为1.89对2.54)。本研究有望推动统一建模领域的后续探索。
组合图像检索(CIR)是多模态理解领域一项关键而复杂的任务。当前CIR基准测试通常查询类别有限,难以反映现实场景的多样化需求。为弥补这一评估缺口,我们利用图像编辑技术实现对修改类型与内容的精准控制,构建出覆盖广泛类别的查询合成流程。基于该流程,我们创建了新型细粒度CIR基准测试集EDIR,包含5,000个高质量查询,涵盖5个主类别和15个子类别的结构化设计。通过对13个多模态嵌入模型的综合评估,我们发现存在显著的能力差距:即使最先进的模型(如RzenEmbed和GME)也难以在所有子类别中保持稳定表现,这凸显了我们基准测试的严谨性。通过对比分析,我们进一步揭示了现有基准测试的固有局限,例如模态偏差和类别覆盖不足。此外,领域内训练实验证明了我们基准测试的可行性。该实验通过区分"可通过针对性数据解决的类别"与"暴露当前模型架构固有局限的类别",明确了任务挑战的实质。
现代人工智能系统的性能从根本上受限于其底层内核的质量,这些内核负责将高级算法语义转化为底层硬件操作。实现接近最优的内核需要专家级的硬件架构和编程模型理解能力,使得内核工程成为关键但 notoriously 耗时且难以规模化的过程。基于大语言模型(LLMs)及其智能代理的最新进展,为自动化内核生成与优化开辟了新可能。LLMs擅长压缩难以形式化的专家级内核知识,而代理系统通过将内核开发构建为迭代式、反馈驱动的循环,进一步实现了可扩展的优化。该领域已取得快速进展,但目前研究仍呈碎片化状态,缺乏对LLM驱动内核生成的系统性视角。本综述通过构建结构化框架填补这一空白:系统梳理基于LLM的方法与代理优化流程,整合支撑该领域学习与评估的数据集及基准测试,并进一步指出关键开放挑战与未来研究方向,旨在为新一代自动化内核优化建立全面参考。为追踪领域动态,我们在https://github.com/flagos-ai/awesome-LLM-driven-kernel-generation 维护开源GitHub仓库。
任务进度估算需要对长时程动态进行推理,而非仅识别静态视觉内容。尽管现代视觉语言模型在描述可见内容方面表现出色,但其能否通过局部观察推断任务进度仍不明确。为此,我们推出Progress-Bench基准测试体系,用于系统评估VLM的进度推理能力。除基准测试外,我们进一步通过免训练的提示工程和基于精选数据集ProgressLM-45K的训练方法,探索了受人类启发的两阶段进度推理范式。对14个VLM的实验表明,大多数模型尚未具备任务进度估算能力,表现出对演示模态和视角变化的敏感性,以及对不可回答案例的薄弱处理能力。虽然强制执行结构化进度推理的免训练提示方法能带来有限且模型依赖的性能提升,但基于训练的ProgressLM-3B即使在小规模模型下也能实现持续改进——尽管其训练任务集与评估任务集完全不相交。进一步分析揭示了典型错误模式,并明确了进度推理成功或失败的条件与成因。
由于标注数据稀缺,视频抠图模型在真实世界视频中的泛化能力仍面临重大挑战。为此,我们提出视频掩码转蒙版模型(VideoMaMa),通过利用预训练视频扩散模型,将粗粒度分割掩码转化为像素级精确的阿尔法蒙版。尽管仅使用合成数据训练,VideoMaMa在真实世界影像上展现出强大的零样本泛化能力。基于此能力,我们开发了可扩展的大规模视频抠图伪标注流程,并构建了视频通用抠图数据集(MA-V),该数据集为超过5万段涵盖多样场景与运动模式的真实世界视频提供了高质量抠图标注。为验证数据集有效性,我们在MA-V上对SAM2模型进行微调得到SAM2-Matte模型,其在真实场景视频上的鲁棒性优于基于现有抠图数据集训练的同类模型。这些发现凸显了大规模伪标注视频抠图数据的重要性,并揭示了生成先验与易得分割线索如何推动视频抠图研究的规模化进展。
近期视频生成模型展现出卓越的能力,能够捕捉复杂的物理交互和场景随时间演变的规律。为利用其时空先验知识,机器人研究领域已尝试将视频模型应用于策略学习,但这类方法通常需要多阶段后训练和新增动作生成架构组件,从而引入复杂性。本研究提出Cosmos策略,这是一种通过单阶段后训练将大型预训练视频模型(Cosmos-Predict2)适配为高效机器人策略的简洁方案。该方法仅需在目标平台收集的机器人演示数据上进行训练,无需修改模型架构。Cosmos策略通过视频模型的潜在扩散过程,学习直接生成编码为潜在帧的机器人动作,充分利用模型的预训练先验知识和核心学习算法来捕捉复杂的动作分布。此外,该策略还能生成同样编码为潜在帧的未来状态图像和价值函数(预期累积奖励),从而在测试阶段实现更高成功率的动作轨迹规划。在评估实验中,Cosmos策略在LIBERO和RoboCasa仿真基准测试中分别达到98.5%和67.1%的平均成功率,在挑战性真实世界双手操作任务中获得最高平均分,其表现优于从头训练的强扩散策略、基于视频模型的策略,以及在相同机器人演示数据上微调的最先进视觉-语言-动作模型。更重要的是,给定策略推演数据,Cosmos策略能够通过经验学习优化其世界模型和价值函数,并借助基于模型的规划在挑战性任务中实现更高成功率。相关代码、模型及训练数据已发布于https://research.nvidia.com/labs/dir/cosmos-policy/。
将透视图像和视频提升至360度全景图可实现沉浸式3D世界生成。现有方法通常依赖于透视与等距柱状投影空间之间的显式几何对齐,但这需要已知相机元数据,限制了该方法在校准信息通常缺失或存在噪声的野外数据中的应用。我们提出360Anything——一个基于预训练扩散变换器的无几何框架。通过将透视输入和全景目标简单视为令牌序列,360Anything以纯数据驱动的方式学习透视到等距柱状投影的映射,无需相机信息。我们的方法在图像和视频的透视转360度生成任务上均实现了最先进性能,超越了使用真实相机信息的先前工作。我们还追踪到等距柱状投影边界接缝伪影的根本原因在于VAE编码器中的零填充操作,并引入环形潜在编码以实现无缝生成。最后,我们在零样本相机视场角和朝向估计基准测试中展示了具有竞争力的结果,证明了360Anything对几何关系的深层理解及其在计算机视觉任务中的广泛适用性。更多结果请访问https://360anything.github.io/。
生成动态3D物体是众多应用的核心技术,然而当前最先进的研究成果往往因配置受限、运行耗时过长或生成质量有限而难以投入实际应用。本文提出ActionMesh——一种以前馈方式直接生成"动态呈现"且符合生产要求的3D网格的生成模型。受早期视频模型启发,我们的核心思路是通过为现有3D扩散模型引入时间维度,构建名为"时序3D扩散"的新框架。具体而言:首先改进3D扩散阶段,使其生成表征时序变化且相互独立的3D形状的同步潜变量序列;其次设计时序3D自编码器,将独立形状序列转换为预定义参考形状的对应形变,从而构建动画效果。通过整合这两个组件,ActionMesh能够根据单目视频、文本描述甚至结合文本动画提示的静态3D网格等多种输入生成动态3D网格。相较于现有方法,本方案具有速度快、无需骨骼绑定且保持拓扑一致等优势,支持快速迭代并实现贴图与重定向等无缝应用。我们在标准视频转4D基准数据集(Consistent4D、Objaverse)上的实验表明,该方法在几何精度与时序一致性方面均达到最先进水平,证明其能够以前所未有的速度和质量生成动态3D网格。
將多模態大語言模型(MLLMs)推廣至新興影片領域對實際應用至關重要,但受限於標註數據稀缺而充滿挑戰。儘管情境學習(ICL)提供了一條免訓練的適應路徑,傳統方法依賴大量標註樣本庫,這在工業或手術等專業場景中往往不切實際,因其需專家進行標註。為解決此問題,我們提出VIOLA(最小標註的影片情境學習框架),這一標註高效的框架將少量專家標註與海量未標註數據有效結合。首先,為在嚴格標註預算下最大化效率,我們提出密度不確定性加權抽樣法。有別於可能選取視覺異常值的傳統多樣性或不確定性策略,本方法通過密度估計同時篩選出兼具多樣性、代表性與信息量的樣本。其次,為無噪聲污染地利用剩餘未標註數據,我們構建混合樣本庫並引入置信度感知檢索與置信度感知提示機制。這些機制顯式建模標籤可靠性:基於相似度與置信度的複合分數進行範例檢索,同時使MLLM能自適應區分經過驗證的真實標註與噪聲偽標籤。在四個MLLMs上對九個多樣化基準進行的廣泛實驗表明,本框架在低資源環境下顯著優於多種基線方法,能以最小標註成本實現魯棒適應。
大型语言模型(LLMs)正日益被用作人类模拟器,既用于评估对话系统,也用于生成微调数据。然而,简单的"扮演用户"式提示往往会产生冗长、不真实的语句,这凸显了对所谓用户代理智能体进行原则性评估的必要性。我们提出MIRRORBENCH——一个可复现、可扩展的基准测试框架,该框架仅基于用户代理在不同对话任务中生成类人用户语句的能力进行评估,并明确与下游任务成功度解耦。MIRRORBENCH采用模块化执行引擎,具备类型化接口、元数据驱动注册机制、多后端支持、缓存功能和强可观测性。该系统支持可插拔的用户代理、数据集、任务和评估指标,使研究人员能够在统一且考虑方差影响的测试环境中评估任意模拟器。我们包含三类词汇多样性指标(MATTR、YULE'S K和HD-D)和三类基于LLM评判的指标(GTEval、成对不可区分性及规则推理评估)。在四个开放数据集上的测试表明,MIRRORBENCH能生成考虑方差的结果,并系统性地揭示了用户代理与真实人类用户之间的差距。该框架为开源项目,提供简洁的命令行界面用于运行实验、管理配置与缓存以及生成报告。框架访问地址:https://github.com/SAP/mirrorbench。
我们推出dla-ideal-solver——一个基于Numba加速Python的高性能二维扩散限制聚集(DLA)模拟框架。通过即时编译技术,该框架在保持高级编程灵活性的同时,实现了与传统静态语言实现相媲美的计算吞吐量。我们研究了不同注入几何结构与行走者浓度下的拉普拉斯生长不稳定性,分析证实了在稀薄体系中标准分形维数D_f≈1.71的鲁棒性,符合Witten-Sander普适类规律。然而,在高密度环境中我们观察到向类伊甸园紧凑生长模式(D_f≈1.87)的显著跨域转变,这归因于屏蔽长度的饱和效应。除标准质量-半径标度分析外,我们采用广义Rényi维数与空隙度指标来量化聚集体的单分形特征与空间异质性。本研究为探索非平衡统计力学中的相变建立了可复现的开源测试平台。
随着大型语言模型在教育应用中的日益普及,亟需基于实证的方法来设计和评估能够产生个性化且教学对齐输出的提示词。本研究提出一种通用化、系统化的提示词评估方法,并通过分析结构化对话活动中LLM生成的后续问题进行验证。研究设计并测试了六种提示模板,这些模板融合了成熟的提示工程模式,每种提示均侧重不同的教学策略。通过适用于各类教育应用的锦标赛式评估框架对提示模板进行比较,该锦标赛采用Glicko2评分系统,由八位评委从格式、对话支持度和学习者适用性三个维度对问题组进行评价。数据来源于三个不同教育场景中120组真实用户交互记录。结果显示,专注于策略性阅读的提示模板在成对比较中以81%至100%的胜率显著优于其他模板。该提示结合了角色扮演与情境管理模式,旨在支持元认知学习策略(如自主导向学习)。本方法论展示了教育技术研究者如何系统评估并改进提示设计,推动教育应用从临时性的提示工程向基于实证的提示开发转变。
尽管大型语言模型展现出卓越的能力,但其不可靠性仍是部署于高风险领域的关键障碍。本综述描绘了应对这一挑战的功能演进路径:不确定性从被动的诊断指标,逐步演变为指导实时模型行为的主动控制信号。我们通过三大前沿领域展示不确定性如何作为主动控制信号发挥作用:在高级推理中优化计算并触发自我修正;在自主智能体中调控工具使用与信息搜寻的元认知决策;在强化学习中抑制奖励破解并通过内在奖励实现自我改进。通过将上述进展锚定于贝叶斯方法和共形预测等新兴理论框架,我们为这一变革性趋势提供了统一视角。本综述通过全面概述、批判性分析和实用设计模式论证指出:掌握不确定性的新趋势对于构建可扩展、可靠且可信赖的新一代人工智能至关重要。
人工智能代理正迅速从被动语言模型发展为能执行复杂多步骤任务的自主系统。然而,其在失败场景下的过度自信仍是高风险领域部署的根本障碍。现有针对静态单轮输出的校准方法无法应对智能体系统的独特挑战,例如轨迹中的误差累积、外部工具的不确定性以及不透明的故障模式。为解决这些问题,我们首次提出智能体置信度校准这一新课题,并创新性地提出全轨迹校准框架——该诊断框架能从智能体完整轨迹中提取从宏观动态到微观稳定性的丰富过程级特征。基于简洁可解释的模型,HTC在八大基准测试、多种大语言模型及不同智能体框架中,于校准度和区分度指标上均持续超越强基线方法。除性能优势外,HTC还带来三项重要突破:通过揭示失败背后的信号提供可解释性,实现跨领域无需重新训练的可迁移性,并借助通用智能体校准器达成泛化能力——该校准器在跨域GAIA基准测试中取得了最佳校准效果(最低ECE)。这些成果共同确立了以过程为核心的置信度校准新范式,为诊断和提升AI代理的可靠性提供了系统性框架。
尽管人工智能智能体在长程推理方面展现出卓越能力,但其可靠性深受"幻觉螺旋"现象制约——早期的认知错误会不可逆地持续扩散。现有方法面临两难困境:不确定性量化(UQ)方法通常作为被动传感器,仅能诊断风险而无法处置;自反思机制则易陷入持续或盲目的修正循环。为弥合这一鸿沟,我们提出统一的双过程智能UQ(AUQ)框架,将言语化不确定性转化为主动的双向控制信号。该架构包含两个互补机制:系统1(不确定性感知记忆,UAM)通过隐式传播言语化置信度与语义解释来避免盲目决策;系统2(不确定性感知反思,UAR)则将这些解释作为理性线索,仅在必要时触发有针对性的推理时解析。这种设计使智能体能够动态平衡高效执行与深度审议。在闭环基准测试和开放式深度研究任务上的大量实验表明,我们的无训练方法实现了卓越的性能与轨迹级校准。我们相信这一原则性框架AUQ是构建可靠智能体的重要突破。
我们在IBM量子硬件上实现并基准测试了Violaris提出的电路族,用于评估操作性的分支间通信见证量——该量定义为通过编译后的维格纳朋友式电路产生的经典测量记录中的关联性。我们以单电路内的寄存器间消息传输模式(而非物理信号传递)实现了该协议的五量子比特实例,并评估了其在真实设备噪声和编译约束下的行为。该电路编码了观察者子系统的分支条件演化,其动力学依赖于控制量子比特,随后通过受控传输操作来探测条件测量语境之间的关联性。 在ibm_fez后端上执行20000次测量后,我们观测到基于布居数的可见度为0.877,沿正交轴的相干性见证量分别为0.840和-0.811,相位敏感幅度约为1.17。虽然可见度度量对某些类型的退相不敏感,但相干性见证量提供了对非对角噪声的互补敏感性。 本研究并非为了检验或区分量子力学的各种诠释,而是建立了一个可复现的操作性约束流程,用于评估非理想信道相对于校准设备噪声的可检测性。