每日精選AI研究論文及翻譯
在本报告中,我们推出ERNIE 5.0——一个原生自回归的基础模型,专为跨文本、图像、视频和音频的统一多模态理解与生成而设计。所有模态均基于超稀疏专家混合(MoE)架构,采用模态无关的专家路由机制,在统一的「下一组标记预测」目标下从头开始训练。为应对多样化资源约束下大规模部署的实际挑战,ERNIE 5.0采用创新的弹性训练范式:在单次预训练过程中,模型可学习具有不同深度、专家容量和路由稀疏度的子模型家族,从而在内存或时间受限场景中实现性能、模型规模与推理延迟间的灵活权衡。此外,我们系统性地解决了将强化学习扩展至统一基础模型的挑战,确保在超稀疏MoE架构与多样化多模态设置下实现高效稳定的训练后优化。大量实验表明,ERNIE 5.0在多种模态上均展现出强劲且均衡的性能。据我们所知,在公开披露的模型中,ERNIE 5.0是首个实现生产级规模的万亿参数统一自回归模型,同时支持多模态理解与生成任务。为促进进一步研究,我们呈现了统一模型中模态无关专家路由的详细可视化分析,并结合弹性训练的全面实证研究,旨在为学界提供深刻洞见。
大型語言模型(LLMs)在處理長序列輸入時面臨關鍵瓶頸:鍵值(KV)快取的記憶體佔用量過高。為突破此限制,詞元修剪範式利用注意力稀疏性,選擇性保留少量關鍵詞元。然而現有方法存在明顯缺陷——靜態策略可能導致不可逆的資訊損失,而動態策略採用的啟發式方法難以充分捕捉詞元重要性與查詢的關聯性。為此我們提出FASA框架,透過動態預測詞元重要性實現查詢感知的詞元淘汰機制。FASA源於對RoPE(旋轉位置編碼)的全新發現:我們在頻率塊(FC)層面觀測到功能稀疏性現象。關鍵在於,一小部分可識別的「主導性」FC始終與完整注意力頭保持高度上下文一致性,這為識別重要詞元提供了無需計算成本的強健代理指標。基於此洞見,FASA先透過主導性FC篩選關鍵詞元集合,再僅對修剪後的子集執行聚焦注意力計算。由於僅需存取極小部分KV快取,FASA大幅降低記憶體頻寬需求與計算成本。在從序列建模到複雜思維鏈推理的長上下文任務中,FASA持續超越所有詞元淘汰基線模型,實現接近預言機的準確率,即便在嚴格資源約束下仍展現卓越魯棒性。值得注意的是,在LongBench-V1基準測試中,FASA僅保留256個詞元即可達到完整KV效能的近100%,在AIME24任務中僅使用18.9%快取即實現2.56倍加速比。
近期大型語言模型(LLM)的發展主要聚焦於深度擴展,即單一智能體通過多輪推理與工具使用來解決長視野問題。然而隨著任務範圍的擴大,關鍵瓶頸已從個體能力轉向組織效能。本研究探索了多智能體系統的寬度擴展這一互補維度,以應對廣泛資訊獲取需求。現有多智能體系統通常依賴手工設計的工作流程和輪替式交互,難以有效實現並行化工作。為彌合這一差距,我們提出WideSeek-R1——一個通過多智能體強化學習(MARL)訓練的主從智能體框架,旨在協同實現可擴展的調度與並行執行。該框架基於共享LLM架構,採用隔離上下文與專用工具,在精選的2萬個廣泛資訊獲取任務數據集上聯合優化主智能體與並行從屬智能體。大量實驗表明,WideSeek-R1-4B在WideSearch基準測試中達到40.0%的項目F1分數,其表現可與單智能體DeepSeek-R1-671B相媲美。更重要的是,隨著並行從屬智能體數量增加,WideSeek-R1-4B展現出持續的性能提升,彰顯了寬度擴展的有效性。
多模態流程獎勵模型(MPRMs)是實現多模態大語言模型中視覺推理步驟級監督的核心組件。訓練MPRMs通常需要大規模蒙特卡羅(MC)標註語料庫,這會產生高昂的訓練成本。本文研究MPRM訓練的資料效率問題。初步實驗表明,在隨機抽樣訓練資料的情況下,MPRM訓練效果會快速飽和,這顯示現有MC標註語料庫存在大量冗餘。為解釋此現象,我們建立理論框架並發現:具有資訊量的梯度更新取決於兩個因素——正/負步驟的標籤混合程度與標籤可靠性(正步驟的MC平均分數)。基於這些洞察,我們提出平衡資訊分數(BIS),該方法在無需額外成本的前提下,於推演層級根據現有MC信號同時優先考慮混合度與可靠性。在VisualProcessBench數據集上對兩種骨幹模型(InternVL2.5-8B與Qwen2.5-VL-7B)的實驗表明,經BIS篩選的子集僅需極小比例資料即可持續達到甚至超越完整資料集的性能。值得注意的是,BIS選取的子集僅使用10%訓練資料時便達到完整資料集性能,相較隨機抽樣相對提升4.1%。
全模態大型語言模型(Omni-LLMs)在音視頻理解任務中展現出強大能力,但其對長序列多模態標記的依賴導致顯著計算開銷。儘管存在此挑戰,專為Omni-LLMs設計的標記壓縮方法仍十分有限。為此,我們提出OmniSIFT(全模態時空感知細粒度標記壓縮),一種專為Omni-LLMs設計的模態非對稱標記壓縮框架。具體而言,OmniSIFT採用兩階段壓縮策略:(1)時空視頻剪枝模塊,消除由幀內結構與幀間重疊產生的視頻冗餘;(2)視覺引導音頻篩選模塊,過濾音頻標記。整個框架通過可微分直通估計器進行端到端優化。在五個代表性基準測試上的大量實驗證明了OmniSIFT的有效性與魯棒性。值得注意的是,對於Qwen2.5-Omni-7B模型,OmniSIFT僅引入485萬參數,同時保持比OmniZip等無訓練基線更低的延遲。僅需原始標記上下文25%的條件下,OmniSIFT持續優於所有壓縮基線,並在多項任務中甚至超越全標記模型的性能。
本研究提出混合稀疏注意力(HySparse)架構,該架構在每個完整注意力層之間交錯插入多個稀疏注意力層。雖然概念簡潔,但HySparse能策略性地從前置完整注意力層直接推導出每個稀疏層的詞元選擇與KV快取。此架構解決了先前稀疏注意力方法的兩大根本侷限:首先,傳統方法通常需依賴額外代理機制來預測詞元重要性,不僅增加複雜度,還可能導致次優效能;相比之下,HySparse直接以完整注意力層作為精確預判器來識別關鍵詞元。其次,現有稀疏注意力設計往往僅減少計算量卻未節省KV快取,而HySparse能讓稀疏注意力層複用完整注意力層的KV快取,從而同步降低計算與記憶體開銷。我們在70億參數的稠密模型與800億參數的混合專家(MoE)模型上驗證HySparse,所有實驗設定中其效能均穩定超越完整注意力基準與混合SWA基準。尤為突出的是,在總共49層的800億參數MoE模型中,僅需5層採用完整注意力即可實現顯著效能提升,同時將KV快取儲存量壓縮近10倍。
在現實世界中部署人形機器人面臨根本性挑戰,因其需要在部分信息觀測和動態變化的環境下,實現感知、運動與操作能力的緊密整合,並在不同類型的子任務間實現穩健轉換。為應對這些挑戰,我們提出一項新任務——EgoActing,該任務要求將高層級指令直接具象化為多樣化、精確且具空間感知能力的人形動作。我們進一步通過引入EgoActor來實例化此任務,這是一個統一且可擴展的視覺語言模型,能夠預測運動基元(如行走、轉彎、側移、高度調整)、頭部運動、操作指令以及人機互動行為,以實現感知與執行的實時協調。我們利用來自真實世界示範的純RGB自我中心視角數據、空間推理問答及模擬環境示範進行廣泛監督訓練,使EgoActor能夠在8B和4B參數模型下做出穩健的上下文感知決策,並在1秒內完成流暢的動作推論。在模擬與真實環境中的大量評估表明,EgoActor能有效橋接抽象任務規劃與具體運動執行,同時在多元任務和未見環境中展現出卓越的泛化能力。
儘管自迴歸影片擴散技術快速發展,一個新興的系統演算法瓶頸正限制著部署能力與生成效能:KV快取記憶體。在自迴歸影片生成模型中,KV快取會隨生成歷程增長並迅速佔據GPU記憶體,經常超過30GB,導致無法在普及硬體上部署。更關鍵的是,受限的KV快取預算會壓縮有效工作記憶體,直接削弱長時序生成在身份特徵、畫面佈局與運動軌跡的一致性。為解決此難題,我們提出Quant VideoGen(QVG)——一種專為自迴歸影片擴散模型設計的免訓練KV快取量化框架。QVG透過語義感知平滑技術利用影片時空冗餘性,產生低幅度、易量化的殘差;並進一步引入漸進殘差量化方案,採用由粗到精的多階段策略,在實現平滑的質量-記憶體權衡的同時降低量化誤差。在LongCat Video、HY WorldPlay與Self Forcing等基準測試中,QVG建立了質量與記憶體效率的新帕雷托前沿,將KV快取記憶體壓縮達7.0倍,端到端延遲開銷低於4%,且生成質量持續超越現有基線模型。
近期自主大型语言模型智能体的研究进展表明,其能通过与环境的迭代交互实现性能提升。我们将这种范式定义为测试时改进(TTI)。然而,TTI成功或失败的内在机制仍不明确,现有评估指标亦难以捕捉其任务优化效率、错误行动后的行为适应性,以及工作记忆对任务完成的具体效用。为填补这些空白,我们提出测试时改进诊断评估框架(TIDE),该框架与智能体及环境解耦,将TTI分解为三个相互关联的维度:量化任务完成的整体时序动态,识别性能瓶颈究竟源于递归循环行为还是记忆累积负担。通过跨智能体与环境的广泛实验,TIDE揭示出提升智能体性能不仅需要扩展内部推理能力,更需显式优化智能体与环境间的交互动力学特性。
在機器人操作的實物到模擬轉換中,模擬受豐富交互作用影響的可變形物體仍是根本性挑戰,其動力學同時受環境效應與機器人動作驅動。現有模擬器依賴預定義物理規則或未經機器人條件控制的數據驅動動力學,限制了準確性、穩定性與泛化能力。本文提出SoMA——專為軟體操作設計的3D高斯潑濺模擬器。SoMA將可變形動力學、環境作用力與機器人關節動作耦合於統一潛在神經空間,實現端到端的實物到模擬轉換。通過在學習得到的高斯潑濺模型上建立交互作用建模,該方法無需預定義物理模型即可實現可控、穩定的長時程操作,並能泛化至未觀測軌跡之外。SoMA將真實世界機器人操作的重新模擬準確度與泛化能力提升20%,可穩定模擬如長時程布料摺疊等複雜任務。
扩散大语言模型(dLLMs)因其能够并行解码多个标记的特性,已成为纯自回归语言模型的有力替代方案。然而,当前最先进的块状扩散大语言模型依赖"重掩码"机制,仅解码置信度最高的标记而丢弃其余标记,这实质上造成了计算资源的浪费。我们通过实验证明,回收被丢弃标记的计算结果具有显著价值,因为这些标记保留了有助于后续解码迭代的上下文信息。基于此发现,我们提出残差上下文扩散(RCD)模块,该模块可将废弃的标记表征转化为上下文残差,并将其重新注入下一去噪步骤。RCD采用解耦的双阶段训练流程,有效规避了反向传播相关的内存瓶颈问题。我们在长链思维推理(SDAR)和短链指令跟随(LLaDA)模型上验证了该方法的有效性。实验表明,标准dLLM仅需约10亿标记即可高效转换为RCD范式。在各类基准测试中,RCD以极小的额外计算开销持续提升前沿dLLM模型5-10个百分点的准确率。值得注意的是,在最具挑战性的AIME任务上,RCD使基线准确率近乎翻倍,并在同等准确度水平下实现去噪步骤减少4-5倍。
强化学习(RL)已成为微调大型语言模型(LLM)的基石技术,其中近端策略优化(PPO)算法被视为实际标准。尽管PPO应用广泛,我们认为其核心的比例裁剪机制在结构上并不适合处理LLM固有的大词汇表特性。PPO基于采样标记的概率比来约束策略更新,该比率作为真实策略散度的噪声单样本蒙特卡洛估计。这种机制形成了次优的学习动态:低概率标记的更新会遭受过度惩罚,而高概率标记中可能引发灾难性偏移的更新却约束不足,最终导致训练效率低下和稳定性问题。为此,我们提出散度近端策略优化(DPPO),用基于策略散度直接估计(如总变差或KL散度)的原理性约束替代启发式裁剪。为避免巨大的内存开销,我们引入高效的二元近似和Top-K近似方法,以可忽略的开销捕捉关键散度信息。大量实证评估表明,相较于现有方法,DPPO在训练稳定性和效率方面均实现显著提升,为基于强化学习的LLM微调提供了更稳健的基础框架。
基于DiT的文本到图像生成模型近期逐渐采用大语言模型作为文本编码器,但文本条件处理方式仍趋于静态,且通常仅利用单一LLM层特征,未能充分考虑LLM各层间的语义层级差异以及扩散过程中随时间和网络深度变化的非平稳去噪动态。为更好地匹配DiT生成的动态特性,从而提升扩散模型的生成能力,我们提出了一种配备轻量级门控机制的归一化凸融合框架,通过时间维度、深度维度及联合融合三种方式系统整合多层LLM隐藏状态。实验表明,深度语义路由策略在文本-图像对齐和组合生成任务上表现最优(如GenAI-Bench计数任务提升9.97分),而单纯的时间维度融合反而会降低视觉生成质量。我们将其归因于训练-推断轨迹失配:在分类器无关引导下,名义时间步无法有效追踪实际信噪比,导致推断过程中出现语义时序错位的特征注入。总体而言,我们的研究确立了深度路由策略作为强效基准方法的地位,并揭示了轨迹感知信号对于实现稳健时间相关条件控制的关键作用。
尽管神经表征与生成模型的最新进展已彻底变革3D内容创作领域,但数据处理瓶颈仍制约着该领域发展。为此,我们推出开源生态系统HY3D-Bench,旨在为3D生成任务建立统一的高质量基准。我们的贡献包含三方面:(1) 从大规模资源库中精选25万个高保真3D对象,通过严格处理流程提供包含水密网格和多视角渲染的训练就绪素材;(2) 提出结构化部件级分解方案,为细粒度感知与可控编辑提供必要粒度支持;(3) 通过可扩展的AIGC合成流程弥合现实世界分布差距,新增12.5万合成资源以增强长尾类别多样性。经Hunyuan3D-2.1-Small模型训练实证验证,HY3D-Bench将助力实现稳健数据资源的普惠化访问,有望推动3D感知、机器人及数字内容创作等领域的创新突破。
高质量科学插图对于有效传达复杂科技概念至关重要,然而其人工创作过程始终是学术界与工业界公认的瓶颈。我们推出FigureBench——首个基于长篇科学文本生成插图的大规模基准数据集,包含3,300组高质量科学文本-插图配对样本,涵盖科研论文、综述、博客及教科书等多元场景的文本转插图任务。此外,我们提出AutoFigure框架,这是首个能根据长篇科学文本自动生成高质量科学插图的智能体系统。该框架在生成最终结果前,会通过深度思考、要素重组与多轮验证来构建兼具结构合理性与美学精炼度的版面布局,输出结构完整且视觉精美的科学插图。基于FigureBench提供的高质量数据,我们开展大量实验对比AutoFigure与多种基线方法的性能。结果表明AutoFigure持续超越所有基线方法,能生成达到出版标准的科学插图。相关代码、数据集及HuggingFace空间已发布于https://github.com/ResearAI/AutoFigure。
群体相对策略优化(GRPO)作为一种基于可验证目标的大语言模型对齐方法近期崭露头角。然而在稀疏终端奖励环境下,由于组内推演常获得相同奖励导致相对优势坍缩和更新失效,GRPO往往陷入停滞。我们提出具备特权监督的自提示对齐GRPO框架(SAGE),该在线强化学习框架通过注入特权提示来重塑相同终端验证器奖励下的推演分布。对于每个提示x,模型会采样紧凑提示h(如规划或分解方案),随后基于(x,h)生成解决方案τ。关键在于任务奖励R(x,τ)保持不变;提示仅通过有限采样增强组内结果多样性,防止GRPO在稀疏奖励下出现优势坍缩。测试时设置h=∅即可部署无需特权信息的无提示策略。此外,相比初始策略或更强外部模型的固定提示,多样化自提示采样能形成自适应课程,更有效追踪学习者的瓶颈阶段。在3种大语言模型上的6项基准测试表明,SAGE持续优于GRPO:Llama-3.2-3B-Instruct平均提升2.0分,Qwen2.5-7B-Instruct提升1.2分,Qwen3-4B-Instruct提升1.3分。代码已开源:https://github.com/BaohaoLiao/SAGE。
当前的语言模型(LM)擅长利用预训练知识进行提示推理。然而现实任务更为复杂且高度依赖情境:模型必须从任务特定情境中学习,并运用预训练知识之外的新知识进行推理和任务解决。我们将这种能力称为情境学习——这是人类与生俱来却被长期忽视的关键能力。为此,我们推出CL-bench真实世界基准,包含由领域专家精心设计的500个复杂情境、1,899项任务及31,607条验证标准。每项任务所需的新内容均包含在对应情境中,要求模型从情境中学习预训练时未接触的内容,包括新领域知识、规则系统、复杂流程乃至从实证数据推导的定律。这远超主要测试检索能力的长文本任务,也区别于通过指令示范学习简单任务模式的上下文学习。我们对十大前沿模型的评估显示,模型平均仅能解决17.2%的任务,表现最佳的GPT-5.1也仅解决23.7%,表明语言模型尚未实现有效的情境学习,这成为处理现实世界复杂情境任务的关键瓶颈。CL-bench旨在推动构建具备这种基础能力的语言模型,使其更智能并促进在真实场景中的部署应用。
過去十年間,生成式人工智能的發展軌跡始終由模型中心化範式主導,該範式受規模化定律驅動。儘管在視覺保真度方面取得顯著飛躍,這種方法卻遭遇了「可用性天花板」——即意圖-執行鴻溝(創作者的高層意圖與當前單次生成模型的隨機黑箱特性之間的根本性脫節)。本文受氛圍編程啟發,提出氛圍AIGC這一通過智能體協作實現內容生成的新範式,其核心在於分層多智能體工作流的自主合成。 在此範式下,用戶角色超越傳統的提示詞工程,演變為提供「氛圍」的指揮官——這種高層表徵涵蓋審美偏好、功能邏輯等要素。中樞元規劃器則作為系統架構師,將此「氛圍」解構為可執行、可驗證且自適應的智能體流水線。通過從隨機推理向邏輯編排的轉變,氛圍AIGC在人類想像與機器執行之間架設橋樑。我們主張這一範式轉變將重構人機協作生態,使AI從脆弱的推理引擎轉型為堅實的系統級工程夥伴,從而實現複雜長週期數字資產創作的普適化。
为何预训练的扩散模型或流匹配策略在障碍物附近、偏移支撑面上或轻度杂乱环境中执行相同任务时会失败?这类故障很少源于运动技能的缺失,反而暴露出模仿学习在训练-测试分布偏移下的局限性——动作生成与训练时特定的空间配置和任务规范紧密耦合。通过重新训练或微调来解决这些问题不仅成本高昂,更存在概念上的错位,因为所需的行为本就存在,只是无法在测试时被选择性适配。我们提出视觉语言引导框架(VLS),这是一种无需重新训练的冻结生成式机器人策略推理时适配方法。VLS将适配视为推理时的控制问题,通过引导预训练扩散/流匹配策略的采样过程来响应分布外观察-语言输入,且无需修改策略参数。该框架利用视觉语言模型合成轨迹可微的奖励函数,引导去噪过程生成满足测试时空间与任务要求的动作轨迹。在仿真与真实环境评估中,VLS持续优于现有引导方法,在CALVIN基准上提升31%性能,在LIBERO-PRO任务集上获得13%增益。Franka机器人的真实部署进一步验证了该方法在测试时空间与语义偏移下的鲁棒适配能力。项目页面:https://vision-language-steering.github.io/webpage/
前沿语言模型已展现出强大的推理能力和长程工具使用能力。然而现有RAG系统未能充分利用这些能力,仍依赖两种范式:(1)设计单次检索段落并拼接至模型输入的算法;(2)预定义工作流程并引导模型逐步执行。这两种范式均未让模型参与检索决策,导致系统无法随模型改进而高效扩展。本文提出A-RAG——一种将分层检索接口直接开放给模型的智能体化RAG框架。A-RAG提供关键词搜索、语义搜索和分块读取三种检索工具,使智能体能够跨多粒度自适应搜索信息。在多个开放域QA基准测试上的实验表明,A-RAG在使用相当或更少检索标记量的情况下持续优于现有方法,证明其能有效利用模型能力并动态适应不同RAG任务。我们进一步系统研究了A-RAG随模型规模与测试时计算量的扩展规律。代码和评估套件已开源以促进后续研究,详见https://github.com/Ayanami0730/arag。
搜尋代理器是能夠進行推理並檢索知識庫(或網路)以回答問題的語言模型;近期方法僅通過帶有可驗證獎勵的強化學習來監督最終答案的準確性。現有的大多數可驗證獎勵強化學習搜尋代理器主要針對通用領域問答,這限制了其在科學、工程和醫學領域技術性人工智慧系統中的應用價值。本研究提出訓練代理器對科學論文進行搜索與推理——此舉既能檢驗技術性問答能力,又直接關聯真實科學家的需求,相關能力對未來人工智慧科學家系統至關重要。具體而言,我們發布了包含1600萬篇生物醫學論文摘要的搜尋語料庫,並構建了名為PaperSearchQA的挑戰性事實型問答數據集,該數據集包含6萬個可從語料庫中獲取答案的樣本及對應基準測試。我們在此環境中訓練的搜尋代理器表現優於非強化學習的檢索基線模型;同時通過進一步定量分析觀察到代理器呈現出規劃、推理和自我驗證等有趣行為。我們的語料庫、數據集和基準測試可與流行的可驗證獎勵強化學習訓練代碼庫Search-R1兼容,並已發布於https://huggingface.co/collections/jmhb/papersearchqa。最後,我們的數據創建方法具備可擴展性,能輕鬆適配其他科學領域。
大型语言模型(LLM)的快速发展已超越单GPU硬件的演进速度,使得模型规模日益受限于内存容量而非计算能力。尽管现代训练系统通过分布式并行及跨CPU与存储层级的卸载技术扩展GPU内存,但其本质上仍维持以GPU为核心的执行范式:GPU需承载持久的模型副本和完整自动微分图。这导致大规模模型训练仍紧密依赖多GPU集群、复杂分布式运行时系统以及不可预测的主机内存消耗,为节点级训练后工作负载(如指令调优、对齐和领域自适应)设置了巨大障碍。我们提出Horizon-LM这一以内存为中心的训练系统,通过重新定义CPU与GPU在大模型优化中的角色突破现有局限。该系统将主机内存作为权威参数存储库,采用CPU主导、GPU协从的执行模式,仅将GPU作为瞬态计算引擎。通过消除持久性GPU驻留模块与自动微分图、采用手动梯度传播的显式重计算技术,并引入流水线双缓冲执行引擎,Horizon-LM实现了模型规模与GPU数量的解耦,将内存使用量严格约束在理论参数空间内。在配备1.5TB主机内存的单个H200 GPU上,Horizon-LM可稳定训练参数量高达1200亿的模型。在标准单A100设备上,其训练吞吐量较DeepSpeed ZeRO-3结合CPU卸载方案提升最高达12.2倍,且保持数值精度无损。跨平台与多尺度实验表明,Horizon-LM能持续维持高设备利用率和可预测的内存增长,证实主机内存(而非GPU内存)才是节点级大模型训练可行性的真正边界。
针对大型语言模型(LLM)在软件工程(SWE)领域的智能体演进受限于可验证数据集的稀缺性,这一瓶颈源于跨多种编程语言构建可执行环境的复杂性。为此,我们提出MEnvAgent——一种支持多语言的自动化环境构建框架,能够规模化生成可验证任务实例。该框架采用"规划-执行-验证"多智能体架构自主解决构建故障,并集成创新的环境复用机制,通过增量式修补历史环境降低计算开销。基于涵盖10种编程语言的千级任务新基准MEnvBench的评估表明,MEnvAgent在失败转通过率(F2P)上较基线提升8.6%,同时时间成本降低43%。此外,我们通过构建MEnvData-SWE验证了该框架的实用性:该数据集是目前最大的开源多语言可验证Docker环境集合,包含真实场景下的解决方案轨迹,能使各类模型在SWE任务中获得稳定性能提升。相关代码、基准及数据集已开源:https://github.com/ernie-research/MEnvAgent。
大型语言模型(LLMs)即使在没有明确线索或恶意内容的情况下,也可能从看似良性的训练数据中习得非预期的偏见。现有方法难以在微调前检测此类风险,导致事后评估成本高昂且效率低下。为应对这一挑战,我们提出Data2Behavior这一新任务,旨在训练前预测模型的非预期行为。同时我们提出数据特征操纵(MDF)方法——通过计算候选数据的均值表征并将其注入基础模型的前向传播过程,使数据中的潜在统计信号能够塑造模型激活状态,从而在不更新任何参数的情况下揭示潜在偏见与安全风险。MDF仅需消耗微调所需GPU资源的约20%,即可实现可靠预测。在Qwen3-14B、Qwen2.5-32B-Instruct和Gemma-3-12b-it上的实验证实,MDF能有效预测非预期行为,并为预训练脆弱性分析提供洞察。
在多轮智能体-环境交互过程中管理思维与观察,是提升智能体效能的新兴策略。然而现有研究均等对待整个交互轨迹,忽视了不同轮次中思维的必要性与观察效用的动态差异。为此,我们首先定量研究了思维与观察如何影响智能体的效能与效率。基于研究结果,我们提出Agent-Omit这一统一训练框架,使大语言模型智能体能够自适应地省略冗余思维和观察。具体而言,我们首先合成包含单轮与多轮省略场景的小规模冷启动数据,对智能体进行省略行为微调。进一步提出省略感知的智能体强化学习方法,通过双采样机制和定制化省略奖励来增强智能体的自适应省略能力。理论上我们证明了省略策略的偏差存在KL散度上界。在五个智能体基准测试上的实验表明,我们构建的Agent-Omit-8B模型性能可比肩七种前沿大语言模型智能体,并在与七种高效大语言模型智能体方法的对比中实现了最佳效能-效率平衡。代码与数据已开源:https://github.com/usail-hkust/Agent-Omit。
有效工具使用与推理能力是大型推理模型应对复杂现实问题的核心能力。通过实证分析,我们发现当前大型推理模型在复杂工具使用场景中缺乏子任务分解能力,导致出现惰性推理现象。为此,我们提出两阶段训练框架D-CORE(任务分解与推理过程组合),首先通过自蒸馏机制激发模型的任務分解推理能力,随后采用多样性感知强化学习恢复模型的反思性推理能力。D-CORE在不同基准测试和模型规模下均实现了稳健的工具使用能力提升。在BFCLv3基准上的实验表明:D-CORE-8B模型达到77.7%的准确率,较最优8B模型提升5.7%;D-CORE-14B更以79.3%的准确率创下新纪录,在体积仅为1/5的情况下超越70B级模型。源代码已发布于https://github.com/alibaba/EfficientAI。
近期,统一多模态模型(UMM)在理解与生成任务上均取得了显著进展。然而,这两种能力是否真正在单一模型内实现对齐与融合仍不明确。为探究此问题,我们提出GapEval——一个用于量化理解与生成能力间差距的双向基准测试框架,可对两个"统一"方向的认知连贯性进行定量测量。该框架中每个问题均可通过图像和文本双模态作答,从而实现对模型双向推理能力与跨模态一致性的对称评估。实验表明,在不同架构的多种UMM中,两个方向始终存在性能差距,这暗示当前模型仅实现了表层统一,而非两种能力的深度认知融合。为深入探究内在机制,我们从知识操纵视角展开实证研究以揭示其根本局限。研究发现:UMM中的知识常处于割裂状态,跨模态的能力涌现与知识发展存在异步性,这为后续研究指明了方向。
空间推理是人类认知的基本能力,但仍是当代视觉语言模型(VLM)面临的主要挑战。现有研究大多依赖合成或大语言模型生成的环境,其任务设计有限且呈谜题式结构,未能捕捉VLM在现实世界中遇到的复杂性、视觉噪声和多样化的空间关系。为此,我们推出SpatiaLab——一个用于评估VLM在真实无约束情境下空间推理能力的综合基准。该基准包含1,400个视觉问答对,涵盖六大类别:相对定位、深度与遮挡、方向判定、尺寸与比例、空间导航及三维几何,每个大类下设五个子类,共形成30种任务类型。每个子类至少包含25道题目,每个主类题目量不低于200道,支持多项选择与开放式评估。通过对包括开源/闭源模型、专注推理的模型及专用空间推理模型在内的多种前沿VLM进行实验,发现其空间推理能力与人类存在显著差距:在多项选择设置中,InternVL3.5-72B的准确率为54.93%,而人类达87.57%;在开放式设置中,所有模型性能下降约10-25%,GPT-5-mini以40.93%的最高分仍低于人类的64.93%。这些结果揭示了VLM在处理复杂空间关系、深度感知、导航及三维几何方面的关键局限。通过提供多样化的现实世界评估框架,SpatiaLab不仅暴露了VLM空间推理的核心挑战与发展机遇,更为未来研究指向具有鲁棒性且符合人类认知的空间理解能力提供了基准。SpatiaLab已开放访问:https://spatialab-reasoning.github.io/。
针对代码相关任务的大语言模型训练通常依赖于高质量的代码-文档配对数据,但这些数据不仅整理成本高昂,在冷门编程语言中更是稀缺资源。我们提出BatCoder——一种自监督强化学习框架,通过联合优化代码生成与文档生成任务。该框架采用回译策略:首先生成代码对应的文档,再基于生成文档重构原始代码。原始代码与重构代码之间的语义相似度作为隐式奖励信号,通过强化学习机制双向提升模型从代码生成文档和从文档生成代码的能力。这种方法仅需代码数据即可完成训练,显著扩充了可用训练样本规模。在HumanEval和MBPP基准测试中,基于70亿参数模型的BatCoder分别达到83.5%和81.0%的pass@1准确率,优于现有主流开源基线模型。此外,该框架在训练数据规模和模型容量维度均展现出良好的扩展性。
基于强化学习在推理基准上微调大型语言模型时,通常需要为每个基准设定特定的奖励函数(常为二元形式)。这种做法存在两个潜在局限:奖励函数的设计需求以及二元奖励可能存在的稀疏性。本文系统研究了基于生成参考答案(或数据中存在的其他提示续写)概率或对数概率的奖励机制,其优势在于不依赖特定验证器且具备大规模可用性。近期多项研究(如VeriFree、JEPO、RLPR、NOVER)已倡导使用类似奖励机制。我们通过系统对比基于似然度的奖励变体与标准基线,在标准数学推理基准和无法使用外部验证器的长文本答案场景中测试性能。研究发现,在思维链学习中使用参考答案的对数概率作为奖励,是唯一能在所有实验设置中均表现优异的方案。这种奖励机制也与预训练阶段使用的下一词元对数似然损失保持一致。在可验证场景中,对数概率奖励相较于标准二元奖励能带来相当或更高的成功率,并显著改善困惑度指标;在不可验证场景中,其表现与监督微调相当。而基于概率的方法(如VeriFree)因正确答案概率趋近于零,在不可验证场景中表现停滞。总体而言,本研究确立了对数概率奖励作为思维链微调的有效方法,成功衔接了短答案可验证与长答案不可验证的设置场景。
当前具身视觉语言模型的评估主要依赖静态、专家定义且需人工标注的基准测试集,这些数据集存在严重冗余和覆盖不均衡问题。这种劳动密集型范式不仅消耗大量计算和标注资源、推高成本,还会扭曲模型排名,最终阻碍迭代开发。为解决此问题,我们提出智能体自动评估框架(A2Eval),这是首个通过双智能体协作实现基准自动构建与评估的智能体框架。数据智能体能够自主归纳能力维度并构建平衡紧凑的评估集,而评估智能体则负责合成并验证可执行的评估流程,实现全自动化的高保真评估。在10个基准测试集和13个模型上的实验表明,A2Eval能将评估集压缩85%,降低总体计算成本77%,实现4.6倍加速的同时保持评估质量。关键的是,该框架修正了系统性排名偏差,将人类对齐度提升至斯皮尔曼等级相关系数0.85,并保持高排名保真度(肯德尔系数0.81),为高保真、低成本的具身评估设立了新标准。我们的代码与数据即将公开。
基于多模态大语言模型的接地命名实体识别(GMNER)旨在提取基于文本的实体、为其分配语义类别,并将其定位至对应的视觉区域。本研究探索了多模态大语言模型以端到端方式执行GMNER任务的潜力,突破其传统上仅作为级联流程辅助工具的局限。关键发现表明,MLLMs存在模态偏差(包括视觉偏差与文本偏差)这一根本性挑战,源于模型倾向于采用单模态捷径而非严格的跨模态验证。为此,我们提出模态感知一致性推理框架,通过多风格推理模式注入和约束引导可验证优化实现结构化跨模态推理。MRSI将抽象约束转化为可执行的推理链,而CVO使模型能够通过群体相对策略优化动态校准推理轨迹。在GMNER和视觉定位任务上的实验表明,MCR能有效缓解模态偏差,较现有基线方法展现出更优性能。
自回归视频扩散模型因其因果建模和迭代去噪特性,近期引发广泛研究关注。本研究发现,该类模型中的多头自注意力机制对历史帧存在利用不足的问题:约25%的注意力头几乎仅关注当前帧,且丢弃其KV缓存仅导致轻微性能下降。基于此,我们提出虚拟强制(Dummy Forcing)方法,通过异质内存分配减少注意力头间的上下文冗余,并结合动态头编程自适应分类注意力头类型。此外,我们开发了上下文打包技术以实现更激进的缓存压缩。无需额外训练,该方法在基线模型上实现最高2.0倍加速,支持24.3 FPS的视频生成且质量损失低于0.5%。项目页面详见https://csguoh.github.io/project/DummyForcing/。
我们针对五组突厥语系机器翻译展开研究:俄语-巴什基尔语、俄语-哈萨克语、俄语-吉尔吉斯语、英语-鞑靼语、英语-楚瓦什语。通过在合成数据上采用LoRA技术微调nllb-200-distilled-600M模型,哈萨克语达到chrF++ 49.71分,巴什基尔语达到46.94分。基于检索相似示例的DeepSeek-V3.2提示学习使楚瓦什语取得chrF++ 39.47分。鞑靼语的零样本与检索方法获得chrF++ 41.6分,而吉尔吉斯语的零样本方法则达到45.6分。我们公开了数据集及训练所得的权重参数。
近期,多智能体讨论(MAD)框架日益受到关注,该框架通过多个大语言模型实例进行结构化讨论以协同解决问题。然而我们发现,现有MAD方法容易因智能体间上下文错位而出现讨论不一致问题,导致模型无法形成连贯解决方案。本文提出一种多智能体上下文学习方法(M2CL),通过为每个智能体训练能动态生成上下文指令的生成器,实现基于自动信息组织与精炼的逐轮语境调控。具体而言,受我们对上下文指令的理论洞察启发,M2CL通过精心设计的自适应机制训练生成器来控制上下文连贯性与输出差异度,使大语言模型能够规避对多数噪声的过早收敛,逐步达成正确共识。我们在学术推理、具身任务和移动控制等挑战性任务上评估M2CL,结果表明其性能显著超越现有方法20%-50%,同时具备良好的迁移性和计算效率。
生成式3D模型的快速普及为动画制作流程带来了关键瓶颈——骨骼绑定。现有自动化方法从根本上受限于其蒙皮处理方式,将其视为不适定的高维回归任务,这种任务不仅优化效率低下,且通常与骨骼生成过程相分离。我们认为这是表征方式的问题,因此引入SkinTokens:一种通过学习得到的紧凑离散式蒙皮权重表征。通过利用FSQ-CVAE捕捉蒙皮固有的稀疏性,我们将任务框架从连续回归重构为更易处理的标记序列预测问题。该表征催生了TokenRig——一个将整个骨骼绑定系统建模为骨骼参数与SkinTokens单一序列的自回归框架,能够学习骨骼与蒙皮变形间的复杂依赖关系。这种统一模型随后可进入强化学习阶段,通过定制的几何与语义奖励机制提升对复杂分布外资产的泛化能力。量化数据显示,SkinTokens表征使蒙皮精度相较现有最优方法提升98%-133%,而经过RL优化的完整TokenRig框架则将骨骼预测效果提升17%-22%。本研究提出的统一生成式骨骼绑定方案兼具高保真度与强鲁棒性,为3D内容创作领域的长期挑战提供了可扩展的解决方案。
本文提出自奖励序列蒙特卡洛方法(self-rewarding SMC),这是一种推理阶段扩展算法,能够有效采样掩码扩散语言模型(MDLM)。我们的算法源于以下观察:现有大多数MDLM依赖基于置信度的采样策略,即在每一步仅保留预测置信度最高的词元。这种做法将生成过程限制在易受噪声影响的贪婪解码范式内,导致可能路径的多样性不可避免地坍缩。为解决该问题,我们通过并行启动多个相互作用的扩散过程(称为粒子)进行轨迹探索。关键创新在于引入轨迹级置信度作为自奖励信号,用于分配粒子重要性权重。在采样过程中,粒子通过迭代加权和重采样,系统性地引导生成朝向全局置信度高、质量优良的样本。我们在多种掩码扩散语言模型和基准测试上验证了自奖励SMC的有效性,该方法无需额外训练或奖励引导即可实现显著提升,同时能有效将并行推理能力转化为采样质量的改进。代码已开源:https://github.com/Algolzw/self-rewarding-smc。
我们提出蛋白质自回归建模(PAR),这是首个通过从粗到细的跨尺度预测来实现蛋白质骨架生成的多尺度自回归框架。PAR利用蛋白质的层级特性,通过模拟雕塑过程——先构建粗略拓扑再逐级细化结构细节——来生成结构。该框架包含三个核心组件:(i)多尺度下采样操作,在训练过程中表征多尺度蛋白质结构;(ii)自回归变换器,编码多尺度信息并生成条件嵌入以指导结构生成;(iii)基于流的骨架解码器,根据这些嵌入生成骨架原子。此外,自回归模型存在训练与生成过程不匹配导致的暴露偏差问题,会严重降低结构生成质量。我们通过采用噪声上下文学习和计划采样策略有效缓解该问题,实现了稳健的骨架生成。值得注意的是,PAR展现出强大的零样本泛化能力,支持无需微调即可实现灵活的人工提示条件生成和基序支架构建。在无条件生成基准测试中,PAR能有效学习蛋白质分布,生成具有高设计质量的骨架,并展现出良好的缩放特性。这些特性共同确立了PAR作为蛋白质结构生成框架的显著优势。
放射学分析正日益受益于预训练的视觉表征,这些表征能够支持跨影像模态的异构下游任务。本研究推出OmniRad——一个基于放射学原理设计、通过120万张医学图像自监督预训练的放射学基础模型,其设计理念强调表征复用与跨任务迁移能力。我们在多种下游适配机制下评估预训练编码器,包括采用冻结主干网络的轻量级任务适配器以及端到端全参数微调的分类任务,从而同步评估表征质量与任务特定性能。OmniRad在涵盖多模态分类与分割的公共基准测试套件中接受评估。在MedMNISTv2数据集中,OmniRad相较竞争性基础模型将分类F1分数最高提升2.05%;在密集预测任务中,使用冻结表征时于六组MedSegBench数据集上实现了平均Dice系数的提升。定性分析与潜在空间可视化表明该模型具有更优的特征聚类能力及模态相关性分离特性。
近期文献将近端策略优化(PPO)定位为RLHF中强化学习部分的标准方法。PPO虽在实践中表现良好,但其启发式设计动机、对LM-RLHF中KL散度约束的临时处理方式,以及存在的奖励震荡、熵崩塌、价值函数漂移和策略突然发散等问题,常需频繁重启训练并依赖大量超参数调优。本文针对LM-RLHF场景提出一种全新的纯在线演员-评论员强化学习方法——SAFE(基于熵感知控制的稳定对齐微调)。该创新RLHF算法融合了用于悲观价值估计的双重软最小评论家架构,以及结合熵门控KL调节与PID控制自适应阈值的新型多层稳定框架。与标准PPO的对称KL惩罚机制不同,SAFE能区分高熵探索与低熵模式崩塌,并基于奖励变化速度动态调整惩罚力度。在30亿参数模型上的实验表明,SAFE相比PPO实现了+5.15%的训练平均奖励(0.725对0.689),几乎无奖励崩溃现象,且KL控制能力显著优于PPO。本方法仅增加极小计算开销,构建出可解释、抗崩溃的RLHF框架,在保持激进学习速度的同时确保适合生产部署的长期稳定优化。代码已发布于https://github.com/ryyzn9/SAFE。
现代语言模型几乎完全基于固定分词器产生的标记序列进行训练,这种外部无损压缩器通常作用于UTF-8字节序列,从而将模型与该压缩器耦合。本研究提出代理压缩方法——一种替代性训练方案,既能保持压缩输入的效率优势,又能在推理时提供端到端的原始字节接口。训练过程中,语言模型通过联合学习原始字节序列和外部压缩器生成的压缩视图,逐步建立压缩序列与原始字节的内部对齐机制。这种对齐实现了两种格式间的强效迁移,即使主要使用推理时被丢弃的压缩输入进行训练。在代码语言建模上的大量实验表明,代理压缩显著提升了训练效率,并在固定计算预算下明显优于纯字节级基线方法。随着模型规模扩大,这些收益愈加显著:代理训练模型最终达到或媲美分词器方法的性能,同时仅操作原始字节并保留了字节级建模固有的鲁棒性。
四维生成技术在从输入文本、图像或视频合成动态三维物体方面取得了显著进展。然而,现有方法通常将运动表示为隐式变形场,这限制了直接控制与编辑能力。为解决这一问题,我们提出SkeletonGaussian——一种从单目视频输入生成可编辑动态三维高斯点云的新框架。该方法引入分层铰接式表征,将运动显式分解为由骨骼驱动的稀疏刚性运动与细粒度非刚性运动。具体而言,我们通过提取鲁棒骨骼架构并利用线性混合蒙皮驱动刚性运动,再结合基于六平面结构的非刚性形变优化,显著提升了系统的可解释性与可编辑性。实验结果表明,SkeletonGaussian在生成质量上超越现有方法,同时支持直观的运动编辑,为可编辑四维生成建立了新范式。项目页面:https://wusar.github.io/projects/skeletongaussian/
尽管大语言模型(LLM)多智能体系统通过迭代辩论实现了卓越的推理性能,但其高昂的计算成本和错误传播问题限制了实际部署。本文提出AgentArk——一种将多智能体动态蒸馏至单一模型权重的新型框架,有效将显式的测试时交互转化为隐式的模型能力。该框架使单个智能体在保持计算高效的同时,具备多智能体系统的智能水平。具体而言,我们探索了跨模型、任务、规模及场景的三层次蒸馏策略:推理增强微调、基于轨迹的数据增强以及过程感知蒸馏。通过将计算负担从推理阶段转移至训练阶段,蒸馏后的模型既保留了单智能体的效率,又展现出多智能体系统的强推理与自校正能力,并在多样化推理任务中表现出更强的鲁棒性和泛化性。本研究有望为高效鲁棒的多智能体开发提供新思路。代码已开源:https://github.com/AIFrontierLab/AgentArk。
大型语言模型(LLM)的推理失败通常仅在生成结束时进行测量,然而许多失败表现为过程层面的崩溃:模型在推理过程中"偏离主线"。我们研究是否能够通过标准API中可用的推理时观测值(词元对数概率),在无需任何训练或微调的情况下检测此类崩溃。我们定义了一个结合连续步骤分布偏移(JSD)和不确定性(熵)的简单不稳定性信号,通过峰值不稳定强度概括每个轨迹,并证明该信号能可靠预测失败。在GSM8K和HotpotQA数据集中,不稳定强度能以高于随机水平的AUC值预测错误答案,并随模型规模扩大呈现桶级准确率的单调下降。关键的是,我们发现不稳定性并非一概有害:早期不稳定性可能反映后续的稳定过程并得到正确答案(修正性不稳定),而晚期不稳定性更常导致最终失败(破坏性不稳定)——即使在峰值强度相近时也是如此。这表明可恢复性不仅取决于分布变化的强度,更取决于这种变化相对于剩余解码窗口的发生时机。该方法具有模型无关性、免训练性和可复现性,是作为诊断视角而非修正或控制机制提出的。
直接對齊方法正日益廣泛地用於使大型語言模型(LLMs)與人類偏好保持一致。然而,許多現實世界的對齊問題涉及多個相互衝突的目標,此時若簡單聚合偏好可能導致訓練不穩定和糟糕的權衡結果。具體而言,加權損失方法可能無法識別能同時改善所有目標的更新方向,而現有的多目標方法通常依賴顯式獎勵模型,這會引入額外複雜性並扭曲用戶指定的偏好。本文的貢獻有兩方面:首先,我們提出一種面向衝突目標的無獎勵對齊框架(RACO),該框架直接利用成對偏好數據,並通過一種新穎的剪裁式衝突規避梯度下降法來解決梯度衝突。我們提供了收斂至尊重用戶指定目標權重的帕累托臨界點的理論保證,並進一步證明在雙目標設定中剪裁操作能嚴格提升收斂速率。其次,我們通過啟發式策略改進方法,並通過實驗驗證所提框架在LLM對齊任務中的適用性。在多目標摘要任務和安全對齊任務上,針對多種LLM系列(Qwen 3、Llama 3、Gemma 3)進行的定性與定量評估均表明,相較現有多目標對齊基線方法,本方法能持續實現更優的帕累托權衡。
我们提出LongVPO——一种新颖的两阶段直接偏好优化框架,可使短上下文视觉语言模型无需任何长视频标注即可稳健理解超长视频。在第一阶段,我们通过将问题锚定到单个短视频片段、穿插干扰片段,并应用视觉相似性和问题特异性过滤来合成偏好三元组,从而消除位置偏差并确保明确的监督。我们还通过仅评估锚定片段来近似参考模型在长上下文中的评分,显著降低计算开销。在第二阶段,我们对长视频采用递归描述流水线生成场景级元数据,随后利用大语言模型构建多片段推理查询与负向响应,通过多片段推理任务校准模型偏好。仅使用16K个合成样本且无需昂贵人工标注,LongVPO在多个长视频基准测试中超越最先进的开源模型,同时保持强大的短视频性能(如在MVBench上),为高效长视频理解提供了可扩展的范式。
我们推出FOTBCD——一个基于法国国家地理与林业信息研究所(IGN France)权威正射影像与地形建筑数据构建的大规模建筑变化检测数据集。与现有局限于单一城市或有限区域的基准数据集不同,FOTBCD覆盖法国本土28个省份,其中25个用于训练,三个地理隔离的省份留作评估。该数据集以0.2米/像素的分辨率涵盖城市、郊区及乡村等多种环境。我们公开发布FOTBCD-Binary数据集,包含约2.8万组前后时相图像对及像素级二元建筑变化标注,每组数据均附带图块级空间元数据。该数据集专为地理域偏移下的大规模基准测试而设计,其验证集与测试集样本均来自预留省份,并经过人工核验以确保标注质量。此外,我们同步公开FOTBCD-Instances实例级标注子集,包含数千组图像对,完整展示了FOTBCD全实例级版本的标注体系。通过固定参考基线,我们将FOTBCD-Binary与LEVIR-CD+、WHU-CD进行基准测试,有力证实了数据集层面的地理多样性能够提升建筑变化检测的跨域泛化能力。
在检索、分类和排序等对延迟性、稳定性和成本要求极高的系统中,仅编码器架构的Transformer模型仍具有不可替代的价值。然而,大多数通用编码器仅基于覆盖专业领域有限的通用语料库进行训练。我们推出RexBERT系列——专为电子商务语义设计的BERT风格编码器模型,并作出三项贡献:首先,我们发布Ecom-niverse语料库,这是一个从多元零售与购物资源中精选构建的3500亿词元数据集。我们提出模块化流水线方案,能够从FineFineWeb等开放网络资源中隔离提取电商内容,并对最终领域分布特征进行量化分析。其次,我们基于ModernBERT的架构创新提出可复现的预训练方案。该方案包含三阶段训练流程:通用预训练、上下文扩展及退火式领域专项优化。第三,我们训练了参数量从1700万到4亿不等的RexBERT模型,并基于电商数据集在词元分类、语义相似度及通用自然语言理解任务上进行评估。实验表明,尽管参数量减少2-3倍,RexBERT在领域特定基准测试中不仅超越更大规模的通用编码器,更能媲美甚至优于现代长上下文模型。我们的研究证明,高质量领域内数据与原则性训练方法的结合,能为电商应用提供比盲目扩大模型规模更坚实的基础。
大型语言模型(LLMs)仍会生成听起来合理但缺乏事实依据的论断,这一问题在多轮对话中随着语境扩展和早期错误的累积而加剧。我们推出HalluHard基准测试集,包含涵盖法律案例、研究问题、医疗指南和代码编程四大高风险领域的950个种子问题,通过要求对事实断言提供文内引用来具象化内容真实性。为支持开放场景下的可靠评估,我们提出一种基于网络搜索的迭代证据检索判定流程,能够获取、筛选并解析全文来源(包括PDF文件),以验证引用内容是否切实支撑生成文本。在对多种前沿专有模型和开放权重模型的测试中,即使启用网络搜索,幻觉现象依然显著(最强配置Opus-4.5配合网络搜索的幻觉率约为30%),且内容锚定错误持续高发。最后我们发现,幻觉行为受模型容量、对话轮次位置、有效推理能力及所需知识类型共同影响。