每日精選AI研究論文及翻譯
稀疏自編碼器(SAE)已成為解釋神經網絡的重要工具,其透過將網絡激活分解為稀疏且人類可解讀的特徵集來實現這一目標。近期研究提出了多種SAE變體,並成功將其擴展至前沿模型。儘管引發廣泛關注,但下游任務中日益增多的負面結果使人們質疑SAE是否真能提取出有意義的特徵。為直接探究此問題,我們進行了兩項互補的評估:在具備已知真實特徵的合成設定中,我們證明SAE僅能復原9%的真實特徵,儘管其解釋方差達到71%,顯示即使重構效果強勁,SAE仍未能完成核心任務。針對真實激活的評估,我們引入三種基準方法,將SAE特徵方向或其激活模式約束為隨機值。通過對多種SAE架構的廣泛實驗,我們發現這些基準方法在可解釋性(0.87對比0.90)、稀疏探測(0.69對比0.72)與因果編輯(0.73對比0.72)方面與完整訓練的SAE表現相當。這些結果共同表明,當前階段的SAE並不能可靠地分解模型的內部機制。
代理技能是結構化的程序性知識套件,能在推理階段增強大型語言模型代理的能力。儘管應用迅速普及,目前尚無標準方法來衡量其實際效用。我們推出SkillsBench基準測試,涵蓋11個領域的86項任務,每項任務均配備精選技能與確定性驗證器。每項任務在三種條件下進行評估:無技能、精選技能及自主生成技能。我們對7種代理模型配置進行了7,308次軌跡測試。精選技能使平均通過率提升16.2個百分點,但效果因領域差異顯著(軟體工程領域僅提升4.5個百分點,醫療保健領域則提升51.9個百分點),且84項任務中有16項呈現負增長。自主生成技能未產生平均效益,表明模型無法可靠地創建其能受益的程序性知識。包含2-3個模組的聚焦式技能勝過全面文檔,配備技能的小型模型可達到未配備技能的大型模型同等效能。
我們推出新一代基礎模型GLM-5,旨在將程式編寫範式從氛圍編碼過渡至能動工程。該模型在延續前代產品的能動性、推理與編程(ARC)核心能力的基礎上,採用分佈式狀態架構(DSA)顯著降低訓練與推論成本,同時保持長上下文保真度。為提升模型對齊能力與自主性,我們實施了新型非同步強化學習架構,通過解耦生成與訓練環節大幅提升後訓練效率。此外,我們提出創新的非同步智能體強化學習算法,進一步提升強化學習質量,使模型能更有效地從複雜的長週期交互中學習。憑藉這些創新,GLM-5在主流開放基準測試中實現了最先進的性能。最關鍵的是,GLM-5在真實世界編程任務中展現出前所未有的能力,在處理端到端軟體工程挑戰方面超越以往基線模型。程式碼、模型及更多資訊請參閱:https://github.com/zai-org/GLM-5。
隨著大型語言模型代理在網路環境中日益普及,一個根本性問題浮現:人工智慧代理社會是否會經歷與人類社會系統相似的趨同動態?近期,Moltbook平台模擬出一個可信的未來情境——自主代理在開放式、持續演化的線上社會中互動。我們首次對這類AI代理社會進行大規模系統性診斷。除了靜態觀測,我們更提出量化動態演化的診斷框架,涵蓋語義穩定性、詞彙更替率、個體慣性、影響力持續性與集體共識等維度。研究發現Moltbook呈現動態平衡:雖然全局語義均值快速穩定,但個體代理仍保持高度多樣性與持續的詞彙更新,抗拒同質化。然而,代理表現出強烈的個體慣性,對互動對象的適應性回應極微弱,導致相互影響與共識難以形成。影響力因此僅具瞬時性,未出現持久性的超級節點;由於缺乏共享社會記憶,該社會無法發展穩定的集體影響力錨點。這些發現證明,僅靠規模與互動密度不足以引發社會化進程,為即將到來的下一代AI代理社會提供了可操作的設計與分析原則。
我們推出ResearchGym——一個用於評估AI智能體端到端科研能力的基準測試與執行環境。為實現此目標,我們重新利用來自ICML、ICLR和ACL的五篇口頭報告與亮點論文:保留各論文代碼庫中的數據集、評估框架與基準實現,但隱去論文提出的核心方法,最終構建出五個容器化任務環境(共含39項子任務)。在每個環境中,智能體需提出新假設、運行實驗,並嘗試在論文指標上超越強力的人工基準。通過對GPT-5驅動的智能體進行受控評估,我們發現其存在顯著的「能力-可靠性差距」:在15次評估中僅有1次(6.7%)以11.5%的優勢超越代碼庫提供的基準,平均僅完成26.5%的子任務。我們識別出反覆出現的長週期失效模式,包括缺乏耐心、時間與資源管理不當、對薄弱假設過度自信、並行實驗協調困難,以及上下文長度帶來的硬性限制。然而在單次運行中,該智能體成功超越了ICML 2025某亮點任務的解決方案,表明前沿智能體雖能偶爾達到頂尖水平,但表現極不穩定。我們還評估了Claude Code(Opus-4.5)和Codex(GPT-5.2)等專有智能體框架,它們同樣呈現類似差距。ResearchGym為系統性評估與分析自主智能體的閉環科研能力提供了基礎設施。
統一模型能夠在單一架構中處理多模態理解與生成任務,但其通常以單次前向運作方式執行,缺乏對輸出結果的迭代優化。許多多模態任務(特別是涉及複雜空間構圖、多個互動物件或動態指令的場景)需要分解指令、驗證中間結果並進行迭代修正。雖然測試時擴展技術已證明通過分配額外推理計算資源進行迭代推理能顯著提升語言模型性能,但將此範式擴展至統一多模態模型仍是待解決的挑戰。我們提出UniT框架,透過多模態思維鏈測試時擴展,使單一統一模型能進行多輪推理、驗證與優化。UniT融合智能體數據合成、統一模型訓練與靈活的測試時推理機制,激發出包含驗證、子目標分解與內容記憶等認知行為。我們的核心發現包括:(1)基於短推理軌跡訓練的統一模型,在測試時能泛化至更長的推理鏈;(2)序列式思維鏈推理相比並行採樣,提供了更具可擴展性與計算效率的測試時擴展策略;(3)結合生成與編輯軌跡的訓練能提升模型在分佈外視覺推理任務的表現。這些成果確立了多模態測試時擴展作為推進統一模型生成與理解能力的有效範式。
文本嵌入模型廣泛應用於語義相似度任務,包括資訊檢索、聚類分析和分類任務。通用型模型通常採用單階段或多階段的對比損失函數進行訓練。我們提出了一種新穎的訓練方案,結合模型蒸餾技術與任務特定對比損失,以產生緊湊高效能的嵌入模型。研究結果表明,相較於單純使用對比學習或蒸餾訓練範式,此方法在訓練小型模型時更具成效。最終模型 jina-embeddings-v5-text-small 與 jina-embeddings-v5-text-nano 的基準測試成績,在同等規模模型中達到或超越了現有最先進水準。jina-embeddings-v5-text 系列模型還具備多語言長文本處理能力(最高支援 32k 詞元),其生成的嵌入向量在截斷處理與二值量化後仍保持穩健特性。模型權重已公開釋出,期待能激勵嵌入模型開發領域的進一步創新。
柏拉圖式表徵假說認為,神經網絡的表徵正在趨向於對現實的共同統計模型。我們發現,現有衡量表徵相似度的指標存在網絡規模干擾:增加模型深度或寬度會系統性地誇大表徵相似度評分。為修正這些影響,我們提出基於置換的零校準框架,可將任何表徵相似度指標轉化為具統計保證的校準分數。運用此校準框架重新審視柏拉圖式表徵假說,我們發現更細緻的圖景:經校準後,全局譜度量所報告的表觀趨同現象基本消失,而局部鄰域相似性(非局部距離)在不同模態間仍保持顯著一致性。基於這些發現,我們提出亞里士多德式表徵假說:神經網絡中的表徵正趨向於共享的局部鄰域關係。
變壓器模型的訓練後壓縮通常依賴截斷奇異值分解(SVD)。然而,強制使用單一共享子空間即使在中等壓縮程度下也可能導致準確度下降。稀疏字典學習提供了更靈活的子空間聯合表示,但現有方法常受制於迭代式的字典與係數更新。我們提出COMPOT(針對變壓器的校準優化矩陣普羅克魯斯正交化),這是一種免訓練的壓縮框架,利用小型校準數據集來估計稀疏權重分解。COMPOT採用正交字典,可對字典進行閉式普羅克魯斯更新,並對係數進行解析型單步稀疏編碼,從而消除迭代優化過程。為應對全局壓縮預算下的異質層級敏感度問題,COMPOT進一步引入一次性動態分配策略,自適應地重新分配各層壓縮率。在多樣化架構與任務上的大量實驗表明,COMPOT相較於強勁的低秩與稀疏基準方法,始終提供更優的質量-壓縮權衡,同時能完全兼容訓練後量化以實現極致壓縮。程式碼可於此處取得:https://github.com/mts-ai/COMPOT。
當前多模態模型研究面臨一項關鍵挑戰:提升生成能力往往會削弱理解能力,反之亦然。我們通過分析發現,這種權衡關係的根源可能在於生成與理解之間的潛在衝突,這種衝突在模型內部形成了競爭動態。為解決此問題,我們提出「推理-反思-優化」(R3)框架。該創新算法將單步生成任務重構為「生成-理解-再生成」的多步流程,通過在生成過程中顯式調用模型的理解能力,成功緩解了優化困境,不僅實現了更強的生成效果,還提升了與生成過程相關的理解能力。這為設計下一代統一多模態模型提供了重要啟發。程式碼已開源於:https://github.com/sen-ye/R3。
訓練大型語言模型幾乎完全依賴於採用日益複雜預處理器的稠密自適應優化器。我們對此提出挑戰,通過證明隨機遮罩參數更新可具備卓越效果——帶有遮罩變體的RMSProp持續超越近期最先進的優化器。分析顯示,隨機遮罩會誘發一種依賴曲率的幾何正則化效應,從而平滑優化軌跡。基於此發現,我們提出動量對齊梯度遮罩法(Magma),該方法利用動量-梯度對齊關係調控遮罩更新。大量LLM預訓練實驗表明,Magma可作為自適應優化器的簡單即插即用替代方案,在計算開銷可忽略的前提下實現穩定效能提升。值得注意的是,在10億參數規模模型中,Magma相比Adam和Muon分別將困惑度降低超過19%和9%。
大型语言模型(LLMs)正在改变编程范式(即氛围编程),但如何合成算法复杂且健壮的代码仍是关键挑战。激发LLMs的深度推理能力对突破此障碍至关重要。强化微调(RFT)已成为应对这一需求的有效策略。然而现有方法大多忽视了测试用例固有的异质性难度与粒度,导致奖励信号分布失衡,进而引发训练过程中的梯度更新偏差。为此,我们提出测试驱动与能力自适应课程强化微调框架(TAROT)。该框架针对每个编程问题系统化构建四层级测试套件(基础、中级、复杂、边缘),为课程设计与评估提供可控的难度梯度。TAROT的核心创新在于将课程进度与原始奖励分数解耦,通过能力条件化评估从课程策略组合中进行原则性选择,而非依赖偶然的测试用例难度组合。这种设计确保了优化稳定性与能力习得效率。大量实验表明,代码生成中RFT的最佳课程策略与模型内在能力密切相关:能力较弱的模型采用由易到难的渐进课程收益更大,而能力较强的模型则在难度优先的课程中表现更优。TAROT提供了一种可复现的方法,能根据模型能力自适应定制课程设计,从而持续提升生成代码的功能正确性与鲁棒性。所有代码与数据已发布于https://github.com/deep-diver/TAROT,以促进可复现性并推动社区研究。
语言模型正日益广泛地用于推理其未经训练的内容,如新文档、演进知识和用户特定数据。检索增强生成(RAG)是常用方法,其将原始文档(以文本块形式)外部存储,并在推理时仅检索相关子集供大语言模型进行推理。然而这会导致测试时计算效率低下(LLM需重复推理相同文档),且分块检索可能引入无关上下文,增加无依据生成。我们提出一种类人类的非参数持续学习框架:基础模型保持固定,通过将每次新经验整合至持续积累与自我巩固的外部语义记忆状态来实现学习。我们提出的Panini系统通过将文档表征为生成式语义工作空间(GSW)——一个实体与事件感知的问答对网络,使LLM能重构经历情境,并通过基于推理的推断链在网络中挖掘潜在知识。面对查询时,Panini仅遍历持续更新的GSW(而非原始文档或文本块),并检索最可能的推断链。在六个问答基准测试中,Panini实现了最高平均性能,较其他竞争基线提升5%-7%,同时使用的答案上下文标记数减少2-30倍,支持全开源流程,并在精选不可答查询中降低无依据回答。结果表明,通过GSW框架在写入阶段对经验进行高效精准的结构化,能在读取阶段同时获得效率与可靠性的提升。代码详见https://github.com/roychowdhuryresearch/gsw-memory。
强化学习(RL)在大语言模型推理方面取得了显著进展,但现有的RL微调方法严重依赖启发式技术(如熵正则化和权重调整)来维持稳定性。实践中,这些方法常出现后期性能崩溃现象,导致推理质量下降和训练不稳定。我们推导出RL中词元级策略梯度的大小与词元概率及局部策略熵呈负相关。基于此发现,我们证明训练不稳定性是由约0.01%的极小比例词元(称为伪相关词元)驱动的。当此类词元出现在正确响应中时,它们对推理结果的贡献微乎其微,却继承了完整的序列级奖励,导致梯度更新异常放大。受此启发,我们提出面向大规模模型优化的伪相关词元感知策略优化(STAPO),该方法选择性地屏蔽此类更新并对有效词元的损失进行重归一化处理。在使用Qwen 1.7B、8B和14B基础模型的六项数学推理基准测试中,STAPO始终展现出更优的熵稳定性,相较GRPO、20-Entropy和JustRL方法平均性能提升达7.13%。
網絡上充斥着大量原本為人類視覺消費而創建的圖像,如今這些圖像正日益被基於視覺-語言模型(VLM)的智能體所解析。這些智能體以大規模方式進行視覺決策,決定點擊、推薦或購買哪些內容。然而,我們對其視覺偏好的結構知之甚少。為此,我們提出一個研究框架:將VLM置於受控的圖像選擇任務中,並系統性地擾動其輸入數據。我們的核心思路是將智能體的決策函數視作一種潛在視覺效用,可通過顯示性偏好(即對經過系統編輯的圖像進行選擇)來推斷。從商品照片等常見圖像出發,我們提出視覺提示優化方法,借鑑文本優化技術,利用圖像生成模型迭代式地提出並施加視覺合理的修改(如構圖、光影或背景)。隨後通過評估哪些編輯能提升選擇概率,我們在前沿VLM上進行大規模實驗,證明優化後的編輯能在頭對頭比較中顯著改變選擇概率。我們還開發了自動化解釋管道來闡釋這些偏好,識別驅動選擇行為的一致性視覺主題。我們認為,該方法提供了一種實用高效的途徑來發掘視覺漏洞——這些若在現實場景中被隱性發現則可能引發安全隱患,從而為基於圖像的AI智能體提供更主動的審計與治理支持。
具备显式相机控制能力、可模拟未来观测的预测性世界模型是交互式人工智能的基础。尽管发展迅速,当前系统仍缺乏空间持久性:它们无法在长轨迹中保持稳定的场景结构,当相机重新访问先前观测位置时经常出现细节幻觉。我们发现这种几何漂移源于对屏幕空间位置编码的依赖,这与三维一致性所需的投影几何原理存在冲突。我们提出ViewRope——一种几何感知编码技术,将相机射线方向直接注入视频变换器的自注意力层。通过采用相对射线几何而非像素局部性来参数化注意力机制,ViewRope为跨时间间隙检索三维一致内容提供了模型原生的归纳偏置。我们进一步提出几何感知帧稀疏注意力机制,利用这些几何线索选择性关注相关历史帧,在保证记忆一致性的同时提升效率。此外还推出ViewBench诊断套件,用于测量闭环保真度与几何漂移。实验结果表明,ViewRope在显著提升长期一致性的同时有效降低了计算成本。
尽管大型语言模型(LLMs)展现出专家级的医学知识储备,但将其开放式输出与临床医生细粒度的偏好对齐仍具挑战。现有方法通常依赖粗粒度的优化目标或基于专业指南关联性弱的不可靠自动评估器。为此,我们提出一个两阶段框架:首先发布HealthRubrics数据集,包含7,034个经医师验证的偏好样本,临床医生通过优化LLM起草的评估细则以符合严格医疗标准;其次将这些细则提炼为HealthPrinciples——按临床维度组织的119条可复用临床原则,实现超越人工标注的可扩展监督。我们运用HealthPrinciples实现(1)通过为未标注查询生成细则进行离线对齐,(2)作为推理时引导自我修正的工具。采用本框架训练的参数量300亿、推理时仅激活30亿参数的模型,在HealthBench-Hard基准上达到33.4%的准确率,超越包括Deepseek-R1和o3在内的更大模型,为临床对齐任务建立了资源高效的基线。
在基础模型部署领域,从业者日益需要规范化的缩放定律:在给定预训练计算预算的前提下,结合当代后训练技术,下游任务可达到的准确率是多少?这种映射关系随着技术发展会保持多大稳定性?通过对模型性能进行大规模观测评估(包含5000个观测样本和2000个新采样数据),我们采用具有单调饱和S型参数化的平滑分位数回归方法,估算出能力边界——即基准分数随预训练浮点运算次数对数值变化的高条件分位数。通过在前代模型上进行拟合并在后续发布模型上验证,我们证实了该方法的时间可靠性。跨任务分析显示,除数学推理任务的能力边界随时间持续提升外,其他任务的估计边界基本保持稳定。我们进一步扩展该方法,分析任务相关的饱和现象,并探究数学推理任务中与数据污染相关的边界偏移。最后提出一种高效算法,仅需约20%的评估预算即可重建近乎完整的数据边界。本研究同步发布最新模型性能评估数据集Proteus 2k,并建立了一套实用方法论:既可将计算预算转化为可靠的性能预期,又能监测能力边界随时间推移发生的变化。
动作分块技术使视觉语言动作模型能够实时运行,但朴素的分块执行常在区块边界处出现不连续性。实时分块方法虽能缓解此问题,但因外置于策略网络,会导致伪多模态切换及非本质平滑的运动轨迹。我们提出Legato——一种面向基于流的动作分块VLA策略的训练时延续方法。该方法通过从已知动作与噪声按调度形混合的初始状态启动去噪过程,使模型接触部分动作信息。同时,Legato重构学习到的流动力学,确保在逐步指导下的去噪过程在训练与推断间保持一致性。通过训练时采用随机化调度条件,该方法可适应不同的推断延迟并实现可控平滑度。实验表明,Legato能生成更平滑的运动轨迹,减少执行时的伪多模态切换,从而降低犹豫时间并缩短任务完成时长。大量实体实验证明,在五项操作任务中Legato均稳定优于实时分块方法,轨迹平滑度与任务完成时间均提升约10%。
世界模型需要强大的关系理解能力来支撑预测、推理与控制。虽然以物体为中心的表示提供了有效的抽象方式,但仅凭其不足以捕捉交互依赖的动态特性。为此,我们提出C-JEPA模型——一种简单灵活、以物体为中心的世界模型,它将掩码联合嵌入预测从图像块扩展至物体中心表示。通过实施需要从其他物体推断目标物体状态的对象级掩码机制,C-JEPA能产生具有类反事实效果的潜在干预,并阻断捷径解决方案,从而使交互推理成为必要环节。实验表明,C-JEPA在视觉问答任务中实现持续性能提升,其中反事实推理能力较未采用对象级掩码的相同架构绝对提升约20%。在智能体控制任务中,C-JEPA仅需基于块的世界模型所需潜在输入特征的1%,即可实现相当的性能水平,显著提升规划效率。最后,我们通过形式化分析证明对象级掩码能通过潜在干预引发因果归纳偏置。代码已开源:https://github.com/galilai-group/cjepa。
高效处理长上下文始终是当代大语言模型(LLMs)面临的关键挑战,尤其在资源受限环境中。软压缩架构通过用少量经过学习的压缩标记替代长标记序列,有望扩展有效上下文长度。然而,压缩的极限——以及压缩何时开始抹除任务相关内容——仍未得到充分探索。本文定义了标记溢出这一现象,即压缩表示不再包含足够信息以回答特定查询的状态,并提出一种表征与检测该现象的方法。在xRAG软压缩场景中,我们发现与查询无关的饱和统计量能可靠区分压缩与未压缩标记表示,为识别压缩标记提供了实用工具,但其溢出检测能力有限。基于查询和上下文xRAG表示的轻量级探测分类器在HotpotQA、SQuADv2和TriviaQA数据集上平均达到0.72 AUC-ROC的溢出检测效果,表明融入查询信息可提升检测性能。这些成果实现了从查询无关诊断到查询感知检测的进阶,为建立低成本的大语言模型前置门控机制以规避压缩引发的错误提供了可能。
基於大型語言模型的多智能體系統雖已實現高級協作推理能力,但其離散文本通訊方式仍存在效率瓶頸——不僅帶來顯著運行時開銷,還會導致信息量化損失。儘管潛狀態傳輸提供了高帶寬替代方案,現有方法要麼假設同構的收發架構,要麼依賴於配對式專用翻譯器,難以在具有異構流形的多樣化模型族間實現可擴展的模塊化通信。本研究提出視覺蟲洞框架,創新性地重構視覺語言模型的圖像接口,實現模型無關的無文本通信。通過引入通用視覺編解碼器,我們將異構推理軌跡映射到共享連續潛空間,並直接注入接收器的視覺通路,實質上將視覺編碼器轉化為智能體間心靈感應的通用端口。該框架採用星型拓撲結構,將配對校準複雜度從O(N²)降至O(N),並利用無標籤的師生蒸餾目標,使高速視覺通道與文本通路的穩健推理模式相對齊。在異構模型族(如Qwen-VL、Gemma)上的大量實驗表明,視覺蟲洞在對照實驗中能降低端到端實時延遲,同時保持與標準文本多智能體系統相當的推理保真度。代碼已開源於:https://github.com/xz-liu/heterogeneous-latent-mas
Clawdbot是一款支持自托管、具备工具调用能力的个人AI智能体,其广泛的动作空间涵盖本地执行与网络介导的工作流,这种特性在模糊性和对抗性引导情境下会引发更高的安全风险。我们针对Clawdbot在六个风险维度上开展了轨迹中心化评估:测试集通过抽样并适度改编既有智能体安全基准(包括ATBench与LPS-Bench)中的场景,同时针对Clawdbot的工具接口补充了人工设计的测试案例。通过完整记录交互轨迹(消息传递、动作执行、工具调用参数/输出),我们结合自动化轨迹评估器(AgentDoG-Qwen3-4B)与人工审核进行安全评估。在34个标准测试案例中,其安全表现呈现非均衡特征:在侧重可靠性的任务中表现稳定,而多数失效案例出现在意图未明确定义、目标开放或看似无害的越狱提示场景下,此时细微的误解可能升级为高影响力的工具操作。我们通过代表性案例研究补充整体结果,归纳了这些案例的共性特征,深入分析了Clawdbot在实际应用中易触发的安全漏洞与典型失效模式。
人类终极考试(HLE)已成为评估前沿大语言模型在跨领域复杂问题表现的重要基准。然而社区分析指出,该基准存在相当数量的噪声题目,可能扭曲评估结果与模型间比较。为应对此挑战,我们推出HLE-Verified——一个经过透明验证流程与精细错误分类体系修订的认证基准。其构建采用两阶段"验证-修复"工作流:第一阶段通过领域专家评审与模型交叉核查,对每道题目的问题表述及参考答案进行二元验证,最终获得641道认证题目;第二阶段在严格保持原评估意图的前提下,通过双盲专家修复、模型辅助审计与终审裁定,将可修复的缺陷题目修订为1,170道认证题目。其余689道题目则作为标注不确定来源与专业标签的存疑集开放,供后续优化。我们在HLE与HLE-Verified上评估了七大前沿语言模型,发现后者使模型平均绝对准确率提升7-10个百分点。在原始题目表述或参考答案存在错误的题目上,提升幅度达30-40个百分点。分析进一步揭示模型置信度与题目缺陷存在强关联,佐证了修订有效性。总体而言,HLE-Verified通过降低标注噪声实现了更可靠的模型能力度量。数据详见:https://github.com/SKYLENAGE-AI/HLE-Verified
大型语言模型(LLMs)在处理需要最新信息和多步推理的知识密集型问题时仍面临挑战。通过融合非结构化文本与结构化知识图谱等混合外部知识来增强LLMs,为成本高昂的持续预训练提供了可行替代方案。因此,对其检索与推理能力进行可靠评估变得至关重要。然而,现有基准测试与LLM预训练数据的重叠度日益增加,这意味着答案或支撑知识可能已编码于模型参数中,难以区分真正的检索推理与参数化记忆。我们推出HybridRAG-Bench框架,用于构建评估混合知识环境下检索密集型多步推理的基准测试。该框架自动整合源自arXiv最新科研文献的非结构化文本与结构化知识图谱表征,并基于显式推理路径生成知识密集型问答对。通过支持灵活的领域和时间范围选择,该框架能在模型与知识演进过程中实现防数据污染的可定制化评估。在人工智能、治理与政策、生物信息学三个领域的实验表明,HybridRAG-Bench能有效检验真实检索推理能力而非参数化记忆,为评估混合知识增强推理系统提供了标准化测试平台。相关代码与数据已在github.com/junhongmit/HybridRAG-Bench开源。