每日精選AI研究論文及翻譯
幻覺檢測仍然是確保大型語言模型(LLMs)安全可靠部署的基本挑戰,尤其是在要求事實準確性的應用中。現有的幻覺基準測試通常僅在序列層面操作,且僅限於英語,缺乏全面評估所需的細粒度、多語言監督。在本研究中,我們引入了PsiloQA,這是一個大規模、多語言的數據集,涵蓋14種語言,並在片段層面標註了幻覺。PsiloQA通過一個自動化的三階段流程構建:使用GPT-4o從維基百科生成問答對,在無上下文設置下從多樣化的LLMs中誘導出可能包含幻覺的答案,並通過與黃金答案和檢索到的上下文進行比較,使用GPT-4o自動標註幻覺片段。我們評估了多種幻覺檢測方法——包括不確定性量化、基於LLM的標記和微調的編碼器模型——並顯示基於編碼器的模型在所有語言中表現最強。此外,PsiloQA展示了有效的跨語言泛化能力,並支持向其他基準測試的穩健知識轉移,同時在成本效益上顯著優於人工標註的數據集。我們的數據集和結果推動了在多語言環境中可擴展、細粒度幻覺檢測的發展。
近期,代理强化学习(Agentic RL)在激励网络代理的多轮次、长时程工具使用能力方面取得了显著进展。尽管主流的代理RL算法在熵的引导下自主探索高不确定性的工具调用步骤,但过度依赖熵信号可能会施加进一步的限制,导致训练崩溃。本文深入探讨了由熵引起的挑战,并提出了代理熵平衡策略优化(AEPO),这是一种旨在在滚动更新和策略更新阶段平衡熵的代理RL算法。AEPO包含两个核心组件:(1)一种动态熵平衡滚动机制,通过熵预监控自适应地分配全局和分支采样预算,同时对连续高熵工具调用步骤施加分支惩罚,以防止过度分支问题;(2)熵平衡策略优化,在高熵裁剪项中插入停止梯度操作,以保留并适当重新缩放高熵标记上的梯度,同时结合熵感知优势估计,优先学习高不确定性标记。在14个具有挑战性的数据集上的结果表明,AEPO始终优于7种主流RL算法。仅使用1K RL样本,搭载AEPO的Qwen3-14B取得了令人印象深刻的成绩:在GAIA上为47.6%,在Humanity's Last Exam上为11.2%,在WebWalker上为43.0%的Pass@1;在GAIA上为65.0%,在Humanity's Last Exam上为26.0%,在WebWalker上为70.0%的Pass@5。进一步分析显示,AEPO在保持策略熵稳定的同时提高了滚动采样的多样性,促进了可扩展的网络代理训练。
身份一致性生成已成為文本到圖像研究的重要焦點,近期模型在生成與參考身份對齊的圖像方面取得了顯著成功。然而,由於缺乏包含同一人多次圖像的大規模配對數據集,大多數方法被迫採用基於重建的訓練方式。這種依賴性往往導致我們稱之為“複製-貼上”的失敗模式,即模型直接複製參考面部,而非在姿勢、表情或光照的自然變化中保持身份一致性。這種過度相似性削弱了可控性,並限制了生成的表現力。為解決這些限制,我們(1)構建了一個專為多人物場景設計的大規模配對數據集MultiID-2M,為每個身份提供多樣化的參考;(2)引入了一個基準,量化“複製-貼上”偽影以及身份保真度與變異之間的權衡;(3)提出了一種新穎的訓練範式,利用對比身份損失來平衡保真度與多樣性。這些貢獻最終形成了WithAnyone,這是一個基於擴散的模型,有效減少了“複製-貼上”現象,同時保持了高度的身份相似性。廣泛的定性和定量實驗表明,WithAnyone顯著減少了“複製-貼上”偽影,提高了對姿勢和表情的可控性,並保持了強烈的感知質量。用戶研究進一步驗證了我們的方法在實現高身份保真度的同時,能夠進行富有表現力的可控生成。
在人工智能从被动工具演变为主动且适应性强的伙伴的时代,我们引入了“服务型人工智能”(AI4Service),这一新范式旨在日常生活中提供主动且实时的协助。现有的AI服务大多仍处于被动状态,仅对用户的明确指令作出响应。我们主张,真正智能且有益的助手应具备预见用户需求并在适当时机主动采取行动的能力。为实现这一愿景,我们提出了Alpha-Service,一个统一框架,旨在解决两大核心挑战:通过从第一人称视角视频流中检测服务时机来“知晓何时介入”,以及“知晓如何”提供通用与个性化服务。受冯·诺依曼计算机架构启发,并基于AI眼镜,Alpha-Service由五个关键组件构成:感知输入单元、任务调度中央处理单元、工具利用算术逻辑单元、长期个性化记忆单元及自然人际交互输出单元。作为初步探索,我们通过部署于AI眼镜上的多智能体系统实现了Alpha-Service。案例研究,包括实时二十一点顾问、博物馆导览员及购物搭配助手,展示了其无缝感知环境、推断用户意图并在无需明确提示下提供及时有效协助的能力。
原生视觉-语言模型(VLMs)的构建,随着模型架构与训练范式的演进,已成为挑战传统模块化VLMs的新兴力量。然而,其广泛探索与推广之路仍被两大疑云所笼罩:其一,原生VLMs与模块化VLMs之间存在着哪些本质性限制,这些障碍又能在多大程度上被克服?其二,如何使原生VLMs的研究更加易于接触与普及,从而加速该领域的进展。本文旨在阐明这些挑战,并勾勒出构建原生VLMs的指导原则。具体而言,一个原生VLM的基础应具备以下特质:(i)在共享语义空间内有效对齐像素与词汇表征;(ii)无缝融合先前独立的视觉与语言模块的优势;(iii)内在蕴含多种跨模态特性,支持统一的视觉-语言编码、对齐与推理。基于此,我们推出了NEO,一个从第一性原理出发构建的全新原生VLM家族,其能力足以在多样化的现实场景中与顶尖模块化模型相抗衡。仅需3.9亿图文对,NEO便能从零开始高效发展视觉感知,同时在我们精心设计的基础构件所构建的密集一体化模型内部,缓解视觉与语言间的冲突。我们将NEO定位为可扩展且强大的原生VLMs的基石,并配套一系列可复用组件,共同培育一个成本效益高且可扩展的生态系统。我们的代码与模型已公开于:https://github.com/EvolvingLMMs-Lab/NEO。
在本报告中,我们提出了PaddleOCR-VL,一种专为文档解析设计的先进且资源高效的模型。其核心组件是PaddleOCR-VL-0.9B,一个紧凑而强大的视觉语言模型(VLM),它整合了NaViT风格的动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型,以实现精确的元素识别。这一创新模型高效支持109种语言,并在识别复杂元素(如文本、表格、公式和图表)方面表现出色,同时保持最低的资源消耗。通过在广泛使用的公共基准和内部基准上的全面评估,PaddleOCR-VL在页面级文档解析和元素级识别方面均达到了先进水平。它显著优于现有解决方案,与顶级VLM相比展现出强劲竞争力,并提供快速的推理速度。这些优势使其非常适合在实际场景中的部署应用。
视频生成模型已取得显著进展,尤其在现实场景中表现卓越;然而,在想象性场景中,其性能显著下降。这些提示通常涉及罕见共现的概念,具有长距离语义关系,超出了训练分布的范围。现有方法通常通过测试时缩放来提升视频质量,但其固定的搜索空间和静态的奖励设计限制了在想象性场景中的适应性。为填补这一空白,我们提出了ImagerySearch,一种基于提示的自适应测试时搜索策略,能够根据提示中的语义关系动态调整推理搜索空间和奖励函数。这使得在具有挑战性的想象性场景中生成更加连贯且视觉上合理的视频成为可能。为评估这一方向的进展,我们引入了LDT-Bench,这是首个专为长距离语义提示设计的基准,包含2,839对多样化概念对,并采用自动化协议评估创意生成能力。大量实验表明,ImagerySearch在LDT-Bench上持续优于强大的视频生成基线和现有的测试时缩放方法,并在VBench上实现了具有竞争力的改进,展示了其在多样化提示类型中的有效性。我们将发布LDT-Bench和代码,以促进未来在想象性视频生成领域的研究。
本文提出了一種名為BitNet蒸餾(BitDistill)的輕量級流程,該流程將現成的全精度大型語言模型(例如Qwen)針對特定下游任務微調至1.58位精度(即三元權重{-1, 0, 1}),在最小化計算成本的同時實現了強勁的任務特定性能。具體而言,BitDistill整合了三項關鍵技術:BitNet中引入的SubLN模塊、基於MiniLM的多頭注意力蒸餾,以及作為關鍵預熱步驟的持續預訓練,以緩解在特定任務上微調全精度與1.58位大型語言模型之間性能差距的可擴展性問題。實驗結果表明,BitDistill在模型大小上達到了與全精度對應模型相當的性能,同時在CPU上實現了高達10倍的內存節省和2.65倍的推理加速。代碼可在https://github.com/microsoft/BitNet獲取。
可驗證獎勵的強化學習(RLVR)近期已成為提升大型語言模型(LLMs)推理能力的核心範式。為解決測試時缺乏驗證信號的問題,先前的研究將模型的自我驗證能力訓練納入標準RLVR流程中,從而將推理與驗證能力統一於單一LLM內。然而,以往的做法要求LLM使用兩個獨立的提示模板依次生成解決方案和自我驗證,這大大降低了效率。在本研究中,我們從理論上揭示了自我驗證的RL目標的閉式解可簡化為一個極為簡潔的形式:解決方案的真實推理獎勵等於其最後一個令牌的自我獎勵分數,該分數計算為策略模型在解決方案最後一個令牌處對任何預定令牌分配的下一個令牌對數概率與預先計算常數之差,並以KL係數進行縮放。基於這一洞見,我們提出了LaSeR(基於最後令牌自我獎勵的強化學習),該算法僅需在原始RLVR損失上增加一個均方誤差損失,使最後令牌的自我獎勵分數與基於驗證器的推理獎勵對齊,從而聯合優化LLMs的推理與自我獎勵能力。優化後的自我獎勵分數可在訓練和測試中均用於提升模型性能。值得注意的是,我們的算法從生成後立即預測的最後一個令牌的下一個令牌概率分佈中推導這些分數,僅需額外進行一次令牌推理的最小成本。實驗表明,我們的方法不僅提升了模型的推理性能,還賦予其顯著的自我獎勵能力,從而增強了其在推理時的擴展性能。
本研究探討如何針對擴散式大型語言模型(DLMs)自適應地重新計算鍵值(KV)緩存,以在最大化預測準確性的同時最小化解碼延遲。先前方法中的解碼器在每個去噪步驟和層級上為所有令牌重新計算QKV,儘管KV狀態在大多數步驟中變化甚微,特別是在淺層中,導致大量冗餘。我們提出三點觀察:(1) 遠距離的{bf MASK}令牌主要作為長度偏差,可在活躍預測窗口之外進行塊級緩存;(2) KV動態性隨深度增加,表明從更深層開始選擇性刷新已足夠;(3) 最受關注的令牌展現出最小的KV漂移,為其他令牌的緩存變化提供了保守的下限。基於這些觀察,我們提出了{bf Elastic-Cache},這是一種無需訓練、與架構無關的策略,它聯合決定{何時}刷新(通過對最受關注令牌的注意力感知漂移測試)和{何處}刷新(通過深度感知的計劃,從選定層開始重新計算,同時重用淺層緩存和窗口外的MASK緩存)。與固定週期方案不同,Elastic-Cache為擴散式LLMs執行自適應的層級感知緩存更新,減少冗餘計算並加速解碼,且生成質量損失可忽略不計。在LLaDA-Instruct、LLaDA-1.5和LLaDA-V上進行的數學推理和代碼生成任務實驗顯示出一致的加速效果:在GSM8K(256令牌)上達到8.7倍,在更長序列上達到45.1倍,在HumanEval上達到4.8倍,同時始終保持比基線更高的準確性。我們的方法在保持生成質量的同時,實現了比現有基於置信度的方法顯著更高的吞吐量(在GSM8K上達到6.8倍),從而促進了擴散式LLMs的實際部署。
基於大型語言模型(LLM)的智能體越來越多地通過強化學習(RL)進行訓練,以增強其利用工具與外部環境交互的能力,特別是在需要多輪推理和知識獲取的搜索型場景中。然而,現有方法通常依賴於僅在最終答案處提供的基於結果的獎勵。這種獎勵稀疏性在多輪場景中尤為突出,其中長軌跡加劇了兩個關鍵問題:(i)優勢崩潰,即所有軌跡獲得相同的獎勵,無法提供有用的學習信號;(ii)缺乏細粒度的信用分配,即輪次之間的依賴關係被模糊,特別是在長時程任務中。本文提出了一種基於信息增益的策略優化(IGPO),這是一種簡單而有效的RL框架,為多輪智能體訓練提供了密集且內在的監督。IGPO將每一輪交互建模為逐步獲取關於真實情況信息的過程,並將輪次級獎勵定義為策略生成正確答案概率的邊際增長。與依賴於外部獎勵模型或昂貴的蒙特卡羅估計的先前過程級獎勵方法不同,IGPO直接從模型自身的信念更新中推導出內在獎勵。這些內在的輪次級獎勵與結果級監督相結合,形成密集的獎勵軌跡。在域內和域外基準上的大量實驗表明,IGPO在多輪場景中始終優於強基線,實現了更高的準確性和改進的樣本效率。
針對代碼的大型語言模型(LLMs)依賴於從混合自然語言文本和程序語言代碼中學習的子詞標記器,如字節對編碼(BPE),其驅動力來自統計而非語法。因此,語義相同的代碼片段可能會因表面因素(如空白或標識符命名)的不同而被標記化。為衡量這種不對齊的影響,我們引入了TokDrift框架,該框架應用語義保持的重寫規則來創建僅在標記化上有所不同的代碼變體。在包括參數超過300億的大型模型在內的九個代碼LLMs中,即使微小的格式變化也可能導致模型行為的顯著變化。層次分析顯示,問題源於早期的嵌入層,其中子詞分割未能捕捉語法標記的邊界。我們的研究發現,將不對齊的標記化視為可靠代碼理解與生成的隱藏障礙,強調了未來代碼LLMs需要語法感知的標記化。
尽管大型语言模型(LLMs)在文本推理方面表现出色,但在几何等本质上依赖视觉辅助的数学领域却显得力不从心。现有的视觉思维链(VCoT)方法常受限于僵化的外部工具,或无法生成复杂问题解决所需的高保真、策略性时机的图表。为弥合这一差距,我们推出了MathCanvas,一个旨在赋予统一大型多模态模型(LMMs)内在数学VCoT能力的综合框架。我们的方法分为两个阶段。首先,在视觉操控阶段,模型通过一个包含10M图文对(MathCanvas-Imagen)和5.2M逐步编辑轨迹(MathCanvas-Edit)的新颖1520万对语料库进行预训练,以掌握图表生成与编辑。其次,在策略性视觉辅助推理阶段,模型在MathCanvas-Instruct上微调,这是一个包含219K例交错视觉-文本推理路径的新数据集,教导模型何时及如何利用视觉辅助。为促进严格评估,我们引入了MathCanvas-Bench,一个包含3K需模型生成交错视觉-文本解答的难题的挑战性基准。在此框架下训练的BAGEL-Canvas模型,在MathCanvas-Bench上相较于强LMM基线实现了86%的相对提升,展现出对其他公共数学基准的优异泛化能力。我们的工作提供了一套完整的工具包——框架、数据集及基准——以解锁LMMs中复杂、类人的视觉辅助推理。项目页面:https://mathcanvas.github.io/
我們提出並驗證了“大型語言模型腦退化假說”:持續接觸低質量的網絡文本會導致大型語言模型(LLMs)出現持久的認知衰退。為了因果性地隔離數據質量的影響,我們在真實的Twitter/X語料庫上進行了對照實驗,通過兩種正交的操作化方法——M1(參與度)和M2(語義質量)——構建了低質量數據集和反向對照數據集,並在各條件下匹配了詞彙規模和訓練操作。與對照組相比,四種LLMs在低質量數據集上的持續預訓練導致了推理能力、長上下文理解能力、安全性以及“黑暗特質”(如精神病態、自戀)膨脹方面的顯著下降(Hedges' g>0.3)。低質量與對照數據集的逐步混合也呈現出劑量反應的認知衰退:例如,在M1下,隨著低質量比例從0%升至100%,ARC-Challenge的Chain Of Thoughts得分從74.9降至57.2,RULER-CWE從84.4降至52.3。 錯誤分析揭示了幾個關鍵發現。首先,我們識別出思維跳躍為主要損傷:模型越來越多地截斷或跳過推理鏈,這解釋了大部分錯誤的增長。其次,觀察到部分但不完全的恢復:擴大指令微調和清潔數據預訓練改善了衰退的認知能力,但無法恢復至基線水平,這表明存在持久的表徵漂移而非格式不匹配。最後,我們發現,在M1中,推文的流行度(一種非語義指標)比長度更能預測腦退化效應。綜合來看,這些結果提供了多角度的重要證據,表明數據質量是LLM能力衰退的因果驅動因素,將持續預訓練的數據篩選重新定位為訓練時的安全問題,並激勵對已部署LLMs進行常規的“認知健康檢查”。
近期,多模态奖励模型(RMs)的进展显著提升了视觉生成模型的训练后效果。然而,现有RMs面临固有局限:(1)视觉输入消耗大量上下文预算,迫使帧数减少,导致细粒度细节丢失;(2)所有视觉信息均压缩至初始提示中,加剧了链式推理过程中的幻觉与遗忘现象。为克服这些问题,我们引入了VideoReward Thinker(VR-Thinker),一种“图像思维”框架,该框架赋予RM视觉推理操作(如选择帧)及可配置的视觉记忆窗口。这使得RM能在上下文限制内主动获取并更新视觉证据,提升推理的准确性与可靠性。我们通过强化微调管道激活视觉推理:(i)冷启动阶段,利用精选的视觉链式思维数据,提炼基础推理技能与操作格式化;(ii)筛选出各维度及整体判断均正确的样本,随后对这些高质量轨迹进行拒绝采样微调,以进一步增强推理能力;(iii)应用群体相对策略优化(GRPO)强化推理。我们的方法在视频偏好基准测试中,尤其是在长视频上,展现了开源模型中的顶尖准确率:7B参数的VR-Thinker在VideoGen Reward上达到80.5%,在GenAI-Bench上为82.3%,在MJ-Bench-Video上为75.6%。这些结果验证了“图像思维”多模态奖励建模的有效性与前景。
近期研究表明,大型語言模型(LLMs)在其內部表徵(如隱藏狀態、注意力權重或詞元概率)中編碼了事實性信號,這暗示LLMs可能“知其所不知”。然而,LLMs也可能依賴捷徑或虛假關聯而產生事實錯誤。這些錯誤由鼓勵正確預測的同一訓練目標驅動,從而引發了內部計算能否可靠區分事實與虛構輸出的疑問。在本研究中,我們基於對主題信息依賴性的不同,對比了兩種類型的虛構,進行了LLMs內部處理事實查詢的機制分析。我們發現,當虛構與主題知識相關時,LLMs採用與正確響應相同的內部回憶過程,導致隱藏狀態幾何重疊且難以區分。相反,與主題知識脫節的虛構則產生獨特、聚類的表徵,使其可被檢測。這些發現揭示了一個根本性限制:LLMs並未在其內部狀態中編碼真實性,而僅編碼了知識回憶的模式,表明“LLMs實際上並不知其所不知”。
现代信息检索系统日益面临处理复杂、多层面查询的挑战,这些查询需要深度推理而非简单的关键词或语义匹配。尽管基于大语言模型(LLM)的信息检索展现出巨大潜力,但主流的“检索-再排序”范式继承了基于嵌入检索的局限性;参数化生成方法难以更新新信息;而将整个语料库置于上下文中的长上下文方法对于大规模文档集合在计算上不可行。为应对这些挑战,我们引入了LATTICE,一种层次化检索框架,该框架通过在语料库上施加语义树结构,使LLM能够以对数搜索复杂度对大规模语料库进行推理与导航。我们的方法包含两个阶段:(1)离线阶段,通过自底向上的聚合策略或自顶向下的分割策略,利用多级摘要将语料库组织成语义层次结构;(2)在线遍历阶段,搜索LLM在此树结构中进行导航。在此类LLM引导的搜索中,一个核心挑战在于模型的相关性判断存在噪声、依赖于上下文且对层次结构无感知,这使得跨分支和跨层次的比较变得困难。为解决这一问题,我们提出了一种遍历算法,该算法从局部LLM输出中估计校准的潜在相关性分数,并将其聚合为全局路径相关性度量。我们的无需训练框架在推理密集型的BRIGHT基准测试中实现了最先进的零样本性能,相较于次优的零样本基线,Recall@100提升了高达9%,nDCG@10提升了5%。此外,与经过微调的SOTA方法DIVER-v2相比,LATTICE在使用静态语料库进行评估的BRIGHT子集上取得了相当的结果。
当前,基于大规模机器人数据预训练的视觉-语言-动作(VLA)模型展现出强大的多任务处理能力,并能很好地适应视觉和语言指令的变化以执行操作任务。然而,当面对训练数据之外的对象概念时,如未见过的物体描述和纹理,其成功率显著下降。为解决这一问题,我们提出了一种新颖的代理框架VLA^2,该框架以OpenVLA为执行核心,并有效利用外部模块如网络检索和物体检测,为VLA提供目标对象的视觉和文本知识。这一方法在处理分布外对象时,有效缓解了泛化失败的问题。基于LIBERO仿真环境,我们引入了新的对象和对象描述,构建了一个包含三个难度等级的新评估基准,以测试我们方法的有效性。在我们的设计的高难度泛化基准测试中,该框架成功超越了当前最先进的模型。与独立的OpenVLA基线相比,VLA^2在难度基准测试中的成功率提高了44.2%,在所有定制环境中的平均提升率为20.2%,且未对域内任务造成任何性能下降。项目网站:https://vla-2.github.io。
随着大型语言模型(LLMs)能力的增强与广泛应用,确保其输出内容的安全性变得日益重要。现有的防护模型虽然在静态评估场景中颇具效用,但在实际应用中却面临两大局限:(1)它们通常仅输出二元的“安全/不安全”标签,这些标签在不同安全策略下可能被不一致地解读,导致无法适应各领域间安全容忍度的差异;(2)它们需在获取完整模型输出后方能执行安全检查,这从根本上与流式LLM推理不兼容,从而阻碍了生成过程中的及时干预,增加了有害部分输出的暴露风险。为应对这些挑战,我们推出了Qwen3Guard系列多语言安全防护模型,包含两种专门变体:生成式Qwen3Guard,它将安全分类转化为指令跟随任务,以实现细粒度的三分类判断(安全、争议、不安全);以及流式Qwen3Guard,它引入了令牌级分类头,用于增量文本生成过程中的实时安全监控。两种变体均提供三种规模(0.6B、4B和8B参数),并支持多达119种语言和方言,为全球LLM部署提供了全面、可扩展且低延迟的安全审核。在英语、中文及多语言基准测试中,Qwen3Guard在提示与响应安全分类上均达到了业界领先水平。所有模型均以Apache 2.0许可证发布,供公众使用。
大型語言模型在創意寫作方面表現出系統性缺陷,尤其是在非英語語境中,訓練數據稀缺且缺乏過程層面的監督。我們提出了COIG-Writer,這是一個新穎的中文創意寫作數據集,通過對高質量文本進行系統逆向工程,捕捉了多樣化的輸出及其背後的思維過程。與現有僅提供輸入-輸出對的數據集不同,COIG-Writer包含1,665個精心策劃的三元組,涵蓋51種文體,每個三元組包含:(1) 逆向工程生成的提示,(2) 詳細記錄決策過程的創意推理,以及(3) 最終文本。通過全面實驗,我們識別出創意寫作的雙組分模型:敘事邏輯(由過程監督提供)和語言表達(由通用數據維持)。我們的研究揭示了三個關鍵見解:(1) 過程監督極為有效,但需要與通用數據結合以穩定效果。達到最佳性能需至少一個創意樣本對應十二個通用樣本;低於此閾值,勝率逐漸下降(從62.75%降至35.78%)。(2) 創意能力具有文化依賴性,不存在跨語言遷移(中文與英文表現之間存在89.26個百分點的差距)。(3) 詞彙多樣性與創意質量呈負相關(TTR悖論),表明高多樣性暗示了對邏輯缺陷的補償行為。這些發現確立了創意卓越源於邏輯框架與語言基礎的相互作用,類似於數學推理在基礎模型中增強但無法替代語言能力的情形。
在本研究中,我們推出了mxbai-edge-colbert-v0模型,其參數規模分為兩種:1700萬與3200萬。作為研究的一部分,我們進行了多項實驗,旨在提升檢索與後期交互模型的效能,並計劃將這些成果精煉至更小規模的模型中,作為概念驗證。我們的最終目標是支持從雲端大規模檢索到能在任何設備上本地運行的模型,實現全尺度的檢索能力。mxbai-edge-colbert-v0模型,我們期望它能成為未來所有實驗的堅實基礎,作為一系列小型概念驗證模型的首個版本。在mxbai-edge-colbert-v0的開發過程中,我們進行了多項消融研究,並在此報告其結果。就下游性能而言,mxbai-edge-colbert-v0是一款表現尤為出色的小型模型,在常見的短文本基準測試(BEIR)上超越了ColBERTv2,並在長上下文任務中取得了前所未有的效率進步,標誌著一大步的跨越。
深度研究——通過搜索和綜合來自數百個實時網絡源的信息,生成基於引用的全面報告——標誌著代理系統的一個重要前沿。為了嚴格評估這一能力,四項原則至關重要:任務應(1)以用戶為中心,反映現實的信息需求,(2)動態,要求超越參數知識的最新信息,(3)明確,確保用戶間的一致解釋,(4)多面且搜索密集,需要對眾多網絡源進行搜索和深入分析。現有的基準測試未能滿足這些原則,往往聚焦於狹窄領域或提出模糊問題,阻礙了公平比較。基於這些原則,我們引入了LiveResearchBench,這是一個包含100個專家策劃任務的基準測試,涵蓋日常生活、企業和學術界,每個任務都需要廣泛、動態、實時的網絡搜索和綜合。通過超過1,500小時的人工勞動構建,LiveResearchBench為系統評估提供了嚴格的基礎。為了評估基於引用的長篇報告,我們引入了DeepEval,這是一個全面的評估套件,涵蓋內容和報告層面的質量,包括覆蓋範圍、呈現方式、引用準確性和關聯性、一致性和分析深度。DeepEval整合了四種互補的評估協議,每種協議都旨在確保穩定評估並與人類判斷高度一致。利用LiveResearchBench和DeepEval,我們對17個前沿深度研究系統進行了全面評估,包括單代理網絡搜索、單代理深度研究和多代理系統。我們的分析揭示了當前的優勢、重複出現的故障模式以及推進可靠、有洞察力的深度研究所需的關鍵系統組件。
当前偏好学习方法在标准基准测试中虽能取得高准确率,但在移除客观质量信号后,其性能显著下降。我们引入了WritingPreferenceBench,这是一个包含1,800对人工标注偏好(1,200对英文,600对中文)的数据集,涵盖8种创意写作体裁,其中响应在客观正确性、事实准确性和长度上均相匹配。在此基准上,基于序列的奖励模型——RLHF的标准架构——仅达到52.7%的平均准确率,而零样本语言模型评判者的表现则为53.9%。相比之下,生成式奖励模型通过生成明确的推理链,实现了81.8%的准确率。我们观察到不同体裁间模型内部存在高度差异:单个模型在不同写作类别中的准确率从18.2%到81.8%不等,标准差平均为10.1%。这种差异不因模型规模而改变,27B参数模型相较于8B变体并未展现出持续改进。我们的结果表明,当前RLHF方法主要学习检测客观错误,而非捕捉主观质量偏好(如创意、风格特色和情感共鸣),且成功的偏好建模可能需要中间推理表示而非直接分类。
我們提出了AnyUp,這是一種特徵上採樣方法,可應用於任何解析度的視覺特徵,無需針對特定編碼器進行訓練。現有的基於學習的特徵上採樣器(如DINO或CLIP)需要為每個特徵提取器重新訓練,因此在推理時無法泛化到不同的特徵類型。在本研究中,我們提出了一種推理時特徵無關的上採樣架構,以緩解這一限制並提升上採樣質量。在實驗中,AnyUp為上採樣特徵設定了新的技術標準,能夠泛化到不同的特徵類型,並在保持特徵語義的同時,高效且易於應用於廣泛的下游任務。
複雜機器的設計既是人類智慧的標誌,也是工程實踐的基石。鑑於大型語言模型(LLMs)的最新進展,我們探討這些模型是否也能學會創造。我們從組合式機器設計的角度來探討這個問題:這是一項任務,其中機器由標準化部件組裝而成,以滿足在模擬物理環境中的功能需求,如移動或操作。為了支持這項研究,我們引入了BesiegeField,這是一個基於機器建造遊戲Besiege的測試平台,它支持基於部件的構建、物理模擬和獎勵驅動的評估。利用BesiegeField,我們對最先進的LLMs進行了基準測試,並確定了成功所需的關鍵能力,包括空間推理、策略性組裝和指令遵循。由於當前的開源模型表現不足,我們探索了強化學習(RL)作為改進的途徑:我們策劃了一個冷啟動數據集,進行了RL微調實驗,並強調了在語言、機器設計和物理推理交叉領域中的開放挑戰。
基於可驗證獎勵的強化學習(RLVR)已顯著提升了大型語言模型(LLMs)的推理能力。然而,現行的RLVR方法普遍存在一種系統性偏差,即偏向於利用而非探索,這體現在pass@1性能提升的同時,pass@K(K>1)性能卻有所下降。為深入理解這一問題,我們通過追蹤詞彙候選項上的令牌級概率分佈,分析了RLVR方法的訓練動態。分析揭示了一種一致的概率集中效應,即排名第一的候選項逐漸累積概率質量,並壓制其他候選項。更重要的是,過度集中與較差的pass@K性能呈正相關。基於這一發現,我們提出了簡單的Pass@K優化方法(SimKO),旨在緩解過度集中問題,從而鼓勵探索。SimKO以非對稱方式運作:對於驗證正確的回應,它提升前K個候選項的概率;對於驗證錯誤的回應,它對排名第一的候選項施加更強的懲罰。我們觀察到,當應用於高熵令牌時,這種非對稱設計在緩解過度集中方面尤為有效。在各種數學和邏輯推理基準測試中,SimKO在廣泛的K值範圍內持續帶來更高的pass@K,為改進RLVR的探索提供了一種簡便途徑。
視覺-語言-動作(Vision-Language-Action, VLA)模型正經歷快速發展,並在機器人操控任務中展現出顯著的潛力。然而,擴展VLA模型面臨幾項關鍵挑戰:(1)從零開始訓練新的VLA模型需要大量的計算資源和廣泛的數據集。鑒於當前機器人數據的稀缺性,在擴展過程中充分利用預訓練良好的VLA模型權重顯得尤為重要。(2)實時控制要求精確平衡模型容量與計算效率。為應對這些挑戰,我們提出了AdaMoE,這是一種基於專家混合(Mixture-of-Experts, MoE)的架構,它繼承了密集VLA模型的預訓練權重,並通過將前饋層替換為稀疏激活的MoE層來擴展動作專家。AdaMoE採用了一種解耦技術,通過一個獨立的比例適配器與傳統的路由器協同工作,將專家選擇與專家權重分配解耦。這使得專家能夠根據任務相關性被選擇,同時以獨立控制的權重貢獻,實現專家協同利用而非贏家通吃的動態。我們的方法表明,專家知識無需壟斷。相反,通過協同利用專家,我們可以在保持計算效率的同時實現更優的性能。AdaMoE在關鍵基準測試中持續超越基線模型,在LIBERO上提升了1.8%,在RoboTwin上提升了9.3%。最重要的是,在實際實驗中21.5%的顯著提升驗證了其在機器人操控任務中的實際有效性。
視覺-語言-動作模型(VLAs)在實現通用機器人操作方面展現出巨大潛力。然而,構建此類模型的最佳途徑仍是一個未解之謎。現有方法往往增加複雜性,例如通過動作標記修改視覺-語言模型(VLM)的現有詞彙,或引入專門的動作頭部。有趣的是,將動作直接以文本形式表示的最簡策略卻鮮有探索。本研究引入VLA-0來探討這一理念。我們發現,VLA-0不僅有效,而且其能力出人意料地強大。通過恰當的設計,VLA-0超越了更為複雜的模型。在評估VLAs的熱門基準LIBERO上,VLA-0在相同機器人數據訓練下,超越了包括pi_0.5-KI、OpenVLA-OFT和SmolVLA在內的所有現有方法。此外,無需大規模機器人專用訓練,它便超越了基於大規模機器人數據訓練的方法,如pi_0.5-KI、pi_0、GR00T-N1和MolmoAct。這些發現同樣適用於現實世界,VLA-0在預訓練於大規模真實數據的VLA模型SmolVLA之上表現更優。本文總結了我們這些出乎意料的發現,並闡明了釋放這一簡潔而強大VLA設計高性能所需的具體技術。視覺結果、代碼及訓練模型可在此獲取:https://vla0.github.io/。
大型語言模型(LLMs)激發了對自動機器學習研究代理日益增長的興趣。其中,能夠自主提出想法並進行機器學習實驗的代理尤其具有前景,因為它們通過基於實驗結果的迭代改進,最大限度地實現了研究自動化並加速了科學進展。然而,全面評估此類代理仍具挑戰性。現有的基準測試往往過於強調工程層面,而忽視了學術嚴謹性,這造成了障礙,模糊了對代理在機器學習研究中科學能力的清晰評估。這些基準還存在任務多樣性有限、過於側重應用導向任務而非基礎研究問題,以及在現實研究環境中的可擴展性不足等問題。為解決這些局限性,我們引入了FML-bench,這是一個旨在評估自動機器學習研究代理在8個多樣化且基礎的機器學習研究問題上表現的基準。它減少了編碼負擔,強調基礎問題而非特定用例,提供了高任務多樣性,並且可擴展至現實世界的機器學習GitHub倉庫。此外,我們提出了一個統一的評估框架,包含五個互補的指標,旨在全面評估代理在我們基準上的表現。我們在FML-bench上評估了最先進的自動研究代理,發現採用廣泛研究探索策略的代理優於那些專注於狹窄但深入探索的代理。這些發現表明,強調探索的廣度可能比僅專注於增量改進帶來更有效的研究成果。我們的基準可在https://github.com/qrzou/FML-bench獲取。
基于少步扩散或流的生成模型通常将预测速度的教师模型蒸馏为预测去噪数据捷径的学生模型。这种格式不匹配导致了复杂的蒸馏过程,往往在质量与多样性之间难以权衡。为解决这一问题,我们提出了基于策略的流模型(pi-Flow)。pi-Flow通过修改学生流模型的输出层,使其在某一时间步预测一个无需网络的策略。该策略随后在未来的子步中生成动态流速度,且开销极小,从而在这些子步上实现快速且准确的常微分方程(ODE)积分,而无需额外的网络评估。为使策略的ODE轨迹与教师模型相匹配,我们引入了一种新颖的模仿蒸馏方法,该方法利用标准的ell_2流匹配损失,沿策略轨迹将策略的速度与教师模型的速度对齐。通过简单地模仿教师模型的行为,pi-Flow实现了稳定且可扩展的训练,并避免了质量与多样性之间的权衡。在ImageNet 256^2数据集上,pi-Flow以1-NFE的FID值达到2.85,超越了相同DiT架构下的MeanFlow。在FLUX.1-12B和Qwen-Image-20B数据集上,pi-Flow在4 NFEs时实现了比现有最先进的少步方法显著更好的多样性,同时保持了教师模型级别的质量。
多阶段推理作为一种有效策略,通过将复杂问题分解为顺序子阶段,显著提升了小型语言模型的推理能力。然而,这一策略也带来了延迟增加的问题。我们观察到,现有的自适应加速技术,如层跳过,在此情境下难以平衡效率与准确性,主要面临两大挑战:(1) 各阶段对跳过的敏感性差异,以及(2) 冗余输出令牌的生成。针对这些问题,我们提出了LiteStage,一个面向多阶段推理的延迟感知层跳过框架。LiteStage结合了阶段性的离线搜索,以分配最优层预算,并采用基于置信度的在线生成提前终止机制,以抑制不必要的解码过程。在OBQA、CSQA和StrategyQA三个基准测试上的实验表明,LiteStage实现了最高1.70倍的加速,且准确率损失低于4.0%,优于先前的无需训练的层跳过方法。
大型预训练模型在视觉内容生成和三维重建领域的快速发展,为文本到三维生成开辟了新的可能性。直观上,若能结合现代潜变量文本到视频模型作为“生成器”的强大能力,以及近期(前馈式)三维重建系统作为“解码器”的几何处理能力,便可获得一个强大的三维场景生成器。我们提出了VIST3A,一个实现这一目标的通用框架,解决了两个主要挑战。首先,两个组件必须以保留其权重中丰富知识的方式相结合。我们重新审视了模型拼接技术,即识别出三维解码器中与文本到视频生成器产生的潜变量表示最为匹配的层次,并将两部分拼接起来。这一操作仅需少量数据集且无需标签。其次,文本到视频生成器必须与拼接后的三维解码器对齐,以确保生成的潜变量能够解码为一致且感知上令人信服的三维场景几何。为此,我们采用了直接奖励微调,这是一种流行的人类偏好对齐技术。我们评估了所提出的VIST3A方法,使用不同的视频生成器和三维重建模型进行测试。所有测试组合均显著优于之前输出高斯溅射的文本到三维模型。此外,通过选择合适的三维基础模型,VIST3A还能实现高质量的文本到点云图生成。
近期,圖像編輯模型在遵循自然語言編輯指令方面取得了顯著成果,但這些模型依賴於大規模輸入-目標對數據集的有監督微調。這成為了一個關鍵瓶頸,因為此類自然生成的配對數據難以大規模策劃。目前的解決方案利用現有模型的零樣本能力生成合成訓練對,但這可能將預訓練模型的瑕疵傳播並放大至最終訓練模型中。本研究提出了一種全新的訓練範式,徹底消除了對配對數據的需求。我們的方法通過在訓練過程中展開多步擴散模型,並利用視覺-語言模型(VLMs)的反饋,直接優化模型。對於每個輸入和編輯指令,VLM評估編輯是否遵循指令並保留未變更的內容,從而為端到端優化提供直接梯度。為了確保視覺保真度,我們引入了分佈匹配損失(DMD),約束生成圖像保持在預訓練模型學習到的圖像流形內。我們在標準基準上評估了我們的方法,並進行了廣泛的消融研究。在無需任何配對數據的情況下,我們的方法在少步設置下,與基於大量有監督配對數據訓練的各種圖像編輯擴散模型表現相當。在採用相同VLM作為獎勵模型的情況下,我們也超越了基於強化學習的技術,如Flow-GRPO。
视频生成模型近期在合成质量上取得了显著进展。然而,生成复杂动作仍是一个关键挑战,现有模型往往难以产生自然、流畅且上下文一致的运动。生成动作与现实世界动作之间的差距限制了其实际应用。为解决这一问题,我们引入了RealDPO,一种新颖的对齐范式,它利用现实世界数据作为偏好学习的正样本,从而实现更精确的动作合成。与传统的监督微调(SFT)相比,后者提供的纠正反馈有限,RealDPO采用直接偏好优化(DPO)并结合定制损失函数,以增强动作的真实感。通过对比现实世界视频与模型错误输出,RealDPO实现了迭代自我校正,逐步提升动作质量。为支持复杂动作合成的训练后优化,我们提出了RealAction-5K,这是一个精心策划的高质量视频数据集,捕捉了人类日常活动中的丰富且精确的动作细节。大量实验表明,相较于最先进的模型及现有偏好优化技术,RealDPO在视频质量、文本对齐及动作真实感方面均有显著提升。
大规模语言模型的开发依赖于大规模的训练语料库,然而大多数语料库包含的数据其许可状态不明,这限制了真正开放模型的发展。对于非英语语言而言,这一问题尤为严重,其中公开许可的文本仍然极度匮乏。我们在此介绍“德国公共资源库”,这是迄今为止最大的公开许可德语文本集合。它汇集了来自七个领域的41个来源的数据,涵盖法律、科学、文化、政治、新闻、经济及网络文本。通过系统地从具有可验证许可的知名数据提供商处获取数据,该资源库为语言模型训练提供了1545.6亿个高质量文本标记。我们的处理流程实施了全面的质量过滤、去重及文本格式修正,确保了跨异质文本来源的一致性质量。所有领域子集均至少采用CC-BY-SA 4.0或同等许可,确保了模型训练和再分发的法律合规性。因此,“德国公共资源库”填补了公开许可德语预训练数据的关键空白,并促进了真正开放的德语语言模型的开发。我们还发布了专门针对德语文本的语料库构建和数据过滤代码,使得“德国公共资源库”完全可复现且可扩展。
具有循环深度的語言模型,在考慮變壓器時亦被稱為通用或循環模型,其定義在於能夠通過層的重複來增加計算能力。近期的預訓練研究表明,這些架構能夠擴展至現代語言建模任務,並在推理任務中展現出優勢。在本研究中,我們探討了循環深度模型與擴散語言模型之間的關係。基於它們的相似性,我們為這些模型開發了一種新的擴散強制採樣器,以加速生成過程。該採樣器通過在模型的每次前向傳播中解碼新詞元來推進,而這些詞元的潛在狀態可以通過循環並行地進一步精煉。理論上,使用我們的採樣器進行生成,在現代硬件上相同的時間預算內,其表達能力嚴格優於基線的自回歸生成。此外,這一基於擴散文獻原理的採樣器,無需任何調優即可直接應用於現有的35億參數循環深度變壓器,從而實現高達5倍的加速。因此,我們的研究不僅提供了一種在推理時並行化循環深度模型中額外計算的有效機制,還表明此類模型可自然地視為強大的連續(儘管是因果的)擴散語言模型。
系统性的、超越训练分布的组合泛化能力,依然是机器学习领域的一个核心挑战——同时也是现代语言模型推理能力发展的关键瓶颈。本研究以GSM8K风格的模块化算术计算图任务为测试平台,探讨了Transformer网络在分布外(OOD)泛化上的表现。我们提出并探索了四种旨在增强OOD泛化的架构机制:(i)输入自适应递归;(ii)算法监督;(iii)通过离散瓶颈实现的锚定潜在表示;以及(iv)显式错误纠正机制。这些机制共同构成了一种架构方法,使得Transformer网络能够进行原生且可扩展的潜在空间推理,并具备强大的算法泛化能力。我们通过详细的机制可解释性分析,补充了这些实证结果,揭示了这些机制如何促成稳健的OOD泛化能力。
數位代理需要多樣化且大規模的用戶介面(UI)軌跡來泛化於現實世界的任務,然而從人力標註、基礎設施及工程角度來看,收集此類數據的成本極高。為此,我們引入了UI-Simulator,這是一種可擴展的範式,能夠生成結構化的UI狀態與轉換,從而大規模合成訓練軌跡。該範式整合了用於多樣化UI狀態的數位世界模擬器、確保連貫探索的引導式展開過程,以及產生高質量且多樣化軌跡以供代理訓練的軌跡包裝器。我們進一步提出了UI-Simulator-Grow,這是一種目標導向的擴展策略,通過優先處理高影響力任務並合成信息豐富的軌跡變體,實現了更快速且數據高效的擴展。在WebArena與AndroidWorld上的實驗表明,儘管使用了較弱的教師模型,UI-Simulator仍能與基於真實UI訓練的開源代理相媲美甚至超越,展現出顯著更好的魯棒性。此外,UI-Simulator-Grow僅以Llama-3-8B-Instruct作為基礎模型,便達到了Llama-3-70B-Instruct的性能,凸顯了目標合成擴展範式在持續且高效提升數位代理方面的潛力。
如英语这样的通用语言在方言形式上展现出丰富的区域差异,这些方言常被方言使用者用于与生成模型的互动中。然而,多模态生成模型能否在接收到方言文本输入时有效生成内容?在本研究中,我们通过构建一个涵盖六种常见英语方言的大规模基准来探讨这一问题。我们与方言使用者合作,收集并验证了超过4200条独特的提示,并在17个图像和视频生成模型上进行了评估。我们的自动与人工评估结果显示,当前最先进的多模态生成模型在提示中使用单一方言词汇时,性能下降了32.26%至48.17%。常见的缓解方法,如微调和提示重写,仅能小幅提升方言性能(<7%),同时可能对标准美式英语(SAE)造成显著的性能下降。为此,我们设计了一种基于编码器的通用缓解策略,用于多模态生成模型。我们的方法教导模型识别新的方言特征,同时保持SAE的性能。在如Stable Diffusion 1.5等模型上的实验表明,我们的方法能够同时将五种方言的性能提升至与SAE相当(+34.4%),而对SAE性能的影响几乎为零。
倉庫級別的預訓練常被用於使大型語言模型能夠利用代碼庫範圍內的上下文,從而提升其生成準確且上下文感知的代碼補全能力。在本研究中,我們探討了不同的倉庫處理策略如何影響OpenCoder(一個擁有15億參數的模型)的上下文學習。通過在額外10億個經過篩選的倉庫級別數據上進行訓練,我們將其上下文窗口從4,096個標記擴展至16,384個標記。儘管依賴的數據集規模小於競爭模型(後者通常使用數千億個標記),我們的模型在Long Code Arena基準測試中仍表現出相當的性能。我們發現,多種倉庫處理技術均能帶來相似的良好效果,其中主要的性能提升來自於適應新的旋轉位置嵌入(RoPE)縮放參數。最後,我們展示了一種在原始序列長度下更為簡單的文件級別訓練方法依然非常有效,這為在數據和計算資源更為受限的環境下開展倉庫級別代碼補全研究開闢了道路。
測試時擴展是一種提升大型語言模型在複雜推理任務上表現的強力策略。雖然最先進的方法通常採用生成式驗證器從候選方案中選出最佳解,但這種方法會帶來高昂的計算成本,限制了其實用性。在本研究中,我們將焦點轉向一種更注重預算的範式:判別式驗證。我們進行了深入的實證分析,並證明儘管判別式驗證器在單獨使用時可能表現不佳,但將其與自我一致性結合於混合方法中,則能創造出一種強大且高效的測試時擴展機制。值得注意的是,在固定的計算預算下,這種混合方法顯著超越了最先進的生成式驗證:在AIME2025上實現了高達15.3%的準確率提升。我們的研究結果表明,在實際的現實世界應用中,基於判別式驗證器的預算感知擴展不僅是對自我一致性的“免費”升級,更是對昂貴生成技術的一種更有效且高效的替代方案。代碼可在https://github.com/wang-research-lab/verification獲取。
近距離人際互動姿態傳遞了豐富的互動動態情境信息。基於此類姿態,人類能夠直觀地推斷情境,並借助對人類行為的強先驗知識,預測可能的過去與未來動態。受此啟發,我們提出了Ponimator,這是一個以近距離互動姿態為基礎的通用互動動畫框架。我們的訓練數據來自於運動捕捉互動數據集中的緊密接觸雙人姿態及其周圍的時間上下文。利用互動姿態先驗,Ponimator採用了兩個條件擴散模型:(1) 姿態動畫器,利用時間先驗從互動姿態生成動態運動序列;(2) 姿態生成器,應用空間先驗,在互動姿態不可用時,從單一姿態、文本或兩者結合中合成互動姿態。總體而言,Ponimator支持多樣化任務,包括基於圖像的互動動畫、反應動畫及文本到互動的合成,促進了高質量動捕數據向開放世界場景的互動知識遷移。跨多樣數據集與應用的實證實驗展示了姿態先驗的普適性及我們框架的有效性與魯棒性。
尺度定律通过将上游指标(如交叉熵损失)与模型规模、训练数据和计算资源等设计因素联系起来,极大地改变了我们对大型语言模型的理解。然而,这些传统定律未能捕捉到下游任务的表现,其中上下文起着关键作用。在本研究中,我们提出了一个简洁且可解释的框架,该框架将下游表现联合建模为训练计算资源和所提供上下文的函数。我们通过对Llama-2-7B和Llama-2-13B的扩展上下文变体在65,500个独特实例上的下游表现进行拟合,实证验证了我们的框架,这些实例涵盖了算术推理、常识推理和机器翻译三项任务。我们的结果表明,该框架能够准确建模分布内的下游表现,在训练计算资源跨越三个数量级的情况下具有普适性,并能可靠地外推随着上下文量增加的性能表现。这些发现为训练计算资源与上下文利用之间的相互作用提供了宝贵的见解,为设计适用于多样化下游任务的更高效长上下文大型语言模型提供了指导。我们的代码可在https://github.com/wang-research-lab/context-scaling获取。
基於網路的「深度研究」代理旨在通過與線上工具的長期互動來解決複雜的問答任務。這些任務仍然具有挑戰性,因為底層的語言模型通常未針對長期推理和探索進行優化。先前的研究提出了構建指令微調數據集的工作流程,通常利用知識圖譜。然而,這些方法通常缺乏對難度和品質的精細控制,生成的合成數據未能捕捉到長期推理所需的複雜性。此外,許多研究通過比較在不同優化方案下訓練的模型,混淆了數據和訓練效果的影響,使得難以獨立評估數據本身的有效性。我們引入了一種雙管齊下的數據合成管道,通過逐步增加任務複雜度來生成問答對,直到一個前沿的基準網路代理失敗。該基準代理在此過程中扮演多種角色:嘗試回答問題、驗證事實性、檢查替代答案並執行過濾。為了評估我們合成方法的有效性,我們採用了基於強網路代理蒸餾的受控訓練設置。在多個基於網路的基準測試中的實驗表明,儘管我們的數據集較小,但能夠訓練出比現有數據集更有效的網路代理。特別是,我們的數據在工具使用動作上展現出兩倍的多元性,使得基於其訓練的模型能夠在避免重複工具調用行為的同時,實現更強的表現。
傳統的RAG(檢索增強生成)範式,通常針對接收到的查詢進行相關文本片段的理解,這在內在限制了知識內化的深度及推理能力。為解決此限制,我們的研究將RAG中的文本處理從被動分塊轉變為主動理解,定義此過程為文檔記憶提取,旨在模擬人類閱讀時的認知過程。基於此,我們提出了情境感知文檔記憶混合(MoM)框架,旨在高效處理來自多個領域的文檔,並訓練小型語言模型(SLMs)以獲得主動探索與構建文檔記憶的能力。MoM首先指導大型語言模型(LLMs)模擬領域專家生成文檔邏輯大綱,從而引導結構化分塊與核心內容提取。它採用多路徑採樣與多視角評估機制,特別設計了代表片段清晰度與提取完整性的綜合指標,以選取最優文檔記憶。此外,為在SLMs訓練中注入更深層次的人類閱讀能力,我們引入了逆向推理策略,從高質量結果中推導出精煉的專家思維路徑。最後,利用MoM生成的多樣化內容形式,我們開發了一種基於概率建模理論證明的三層文檔記憶檢索機制。跨三個不同領域的大量實驗結果表明,MoM框架不僅解決了現有RAG系統中的文本分塊挑戰,為LLMs提供了語義完整的文檔記憶,還為SLMs實現以人為本的智能文本處理鋪平了道路。
持久動態場景建模在追蹤與新視角合成方面仍具挑戰性,原因在於難以在保持計算效率的同時捕捉精確的形變。我們提出了SCas4D,這是一種利用三維高斯潑濺中結構模式進行動態場景建模的級聯優化框架。其核心思想在於現實世界中的形變常呈現出層次化模式,即高斯群組共享相似的變換。通過從粗粒度的部件級到細粒度的點級逐步精煉形變,SCas4D在每個時間幀內僅需100次迭代即可收斂,並在僅需現有方法二十分之一的訓練迭代次數下,產出與之相當的結果。該方法在自監督關節物體分割、新視角合成及密集點追蹤任務中也展現了其有效性。
大型语言模型(LLMs)作为角色扮演代理的应用日益广泛,然而其在忠实且一致地呈现特定版本角色——例如跨越漫画与电影宇宙的超級英雄——方面的能力仍未被充分探索。漫威与DC等超级英雄经典作品提供了丰富的测试平台:数十年的故事叙述孕育了同一角色的多个化身,各自拥有独特的历史、价值观及道德准则。针对此问题,我们引入了“超越单一世界”这一基准,涵盖30位标志性英雄及其90个特定版本的角色扮演。该基准包含两项任务:(i)“经典事件”,考察对关键人生阶段的事实回忆;(ii)“道德困境”,让模型面对充满伦理挑战的情境。我们依据一个将内部思考(“思考”)与外部决策(“行动”)分离的框架,对回答的经典准确性与推理忠实度进行评分。此外,我们提出了“思行匹配”这一指标,量化理由与行动之间的一致性,作为模型可信度的代理。通过对推理导向与非推理导向模型的实验,我们得出三点发现:(1)思维链提示能提升较弱模型的叙事连贯性,但可能降低较强模型的经典准确性;(2)同一角色跨版本泛化仍是一大难题;(3)模型往往擅长于思考或行动之一,但鲜少两者兼备。“超越单一世界”揭示了多元宇宙一致性与推理对齐方面的关键缺口,为角色扮演型LLMs提供了一个极具挑战性的评估标准。
在RAG系統中,語言模型基於有缺陷的上下文選擇性拒絕回答的能力對於安全性至關重要,但這仍是一個顯著的失敗點。我們的大規模研究揭示,即便是前沿模型在這種情境下也表現不佳,在多文檔任務上的拒絕準確率降至50%以下,同時表現出危險的過度自信或過度謹慎。靜態基準測試無法可靠地評估這一能力,因為模型會利用數據集特定的偽影並記憶測試實例。我們引入了RefusalBench,這是一種通過受控語言擾動程序化生成診斷測試案例的方法論。我們的框架在六類信息不確定性和三個強度級別上採用了176種不同的擾動策略。對超過30個模型的評估揭示了系統性的失敗模式:拒絕包含可分離的檢測和分類技能,而無論是規模還是擴展推理都無法提升性能。我們發現,選擇性拒絕是一種可訓練的、對齊敏感的能力,為改進提供了明確的路徑。我們發布了兩個基準測試——RefusalBench-NQ(單文檔)和RefusalBench-GaRAGe(多文檔)——以及我們的完整生成框架,以實現對這一關鍵能力的持續動態評估。
檢索增強生成(Retrieval-Augmented Generation, RAG)通過動態檢索外部信息,有效緩解了大型語言模型(Large Language Models, LLMs)在事實錯誤、知識過時及虛構內容等方面的關鍵限制。近期研究進一步拓展了這一範式,提出了代理式RAG系統,其中LLMs作為代理,能夠迭代地規劃、檢索並對複雜查詢進行推理。然而,這些系統在處理具有挑戰性的多跳問題時仍顯吃力,且其中間推理能力尚未得到充分探索。為此,我們提出了RAGCap-Bench,這是一個面向能力的基準測試,旨在對代理式RAG工作流程中的中間任務進行細粒度評估。我們通過分析頂尖系統的輸出,識別出常見任務及其執行所需的核心能力,進而構建了典型LLM錯誤的分類體系,以設計有針對性的評估問題。實驗表明,具備更強RAGCap性能的“慢思考”模型能夠取得更好的端到端結果,這不僅驗證了基準測試的有效性,也凸顯了提升這些中間能力的重要性。
過程獎勵模型(PRMs)旨在通過監督中間步驟並識別錯誤來提升大型語言模型(LLMs)的多步推理能力。然而,由於缺乏可擴展的高質量註釋,構建有效的PRMs仍然具有挑戰性。現有方法依賴於昂貴的人工標註、易產生幻覺的LLM自我評估,或是僅從推演結果推斷步驟質量的蒙特卡洛(MC)估計,這些方法常因信用分配不當而引入噪聲和錯位的監督。這些問題導致了三個核心限制:噪聲獎勵、低事實保真度以及與步驟級推理目標的不一致。為應對這些挑戰,我們引入了GroundedPRM,這是一個基於樹引導和保真度感知的自動過程監督框架。為減少獎勵噪聲並實現細粒度信用分配,我們通過蒙特卡洛樹搜索(MCTS)構建結構化推理路徑。為消除幻覺監督,我們使用外部工具驗證每個中間步驟,提供基於執行的正確性信號。為結合步驟級驗證和全局結果評估,我們設計了一種混合獎勵聚合機制,融合了基於工具的驗證與MCTS衍生的反饋。最後,我們將獎勵信號格式化為增強推理的生成結構,以提升可解釋性並與指令調優的LLMs兼容。GroundedPRM僅在40K自動標註樣本上進行訓練,僅為使用自動標註監督的最佳PRM所用數據的10%。然而,它在ProcessBench上的平均性能相對提升了高達26%。當用於獎勵引導的貪婪搜索時,GroundedPRM甚至超越了使用人工標註監督訓練的PRMs,為高質量過程級推理提供了一條可擴展且可驗證的路徑。
推測解碼通過使用草稿模型進行前瞻來加速大型語言模型(LLM)的推理,但其增益受到自回歸草稿生成成本的限制:增加草稿大小會提高接受率,但會引入額外的延遲開銷,加劇速度與準確性的權衡。先前的方法(如Medusa、Hydra、EAGLE)部分降低了草稿成本,但要么降低了接受率,要么引入了限制擴展的開銷。我們提出了鏡像推測解碼(Mirror-SD),這是一種打破延遲與接受率權衡的推理算法。Mirror-SD從目標模型的後綴中並行啟動分支完整的展開,並在異構加速器(GPU和NPU)之間顯式映射計算,以利用跨設備並行性。草稿為目標模型推測前向延續以供驗證,而目標模型同時為草稿推測修正路徑,將推測轉化為兩個互補的執行管道。為了進一步降低草稿延遲而不削弱接受語義,我們增加了推測流式處理,使草稿每步生成多個令牌。這種並行異構執行加上多令牌推測流式處理的雙重策略,將推測解碼推向高接受率與低開銷的理想狀態。在SpecBench上,使用參數規模從14B到66B的服務器級模型,Mirror-SD在各種任務中實現了2.8倍至5.8倍的端到端加速,並在最強基線EAGLE3的基礎上平均相對提升了30%。