每日精選AI研究論文及翻譯
自約翰·馮·諾伊曼與艾倫·圖靈以來,計算系統與大腦之間的關係一直是理論先驅們的靈感源泉。均勻且無標度的生物網絡,如大腦,具備強大的特性,包括隨時間推移的泛化能力,這正是機器學習邁向通用推理模型之路上的主要障礙。 我們推出“龍之雛”(BDH),這是一種基於無標度生物啟發網絡的新型大型語言模型架構,該網絡由局部交互的神經元粒子構成。BDH在保持類似Transformer性能的同時,結合了堅實的理論基礎與內在的可解釋性。 BDH是一種實用且性能卓越的、基於注意力機制的狀態空間序列學習架構,處於技術前沿。除了作為圖模型外,BDH還具備GPU友好的實現形式。它展現出與Transformer相似的規模法則:在相同參數量(從1000萬到10億)及相同訓練數據下,BDH在語言與翻譯任務上的表現可與GPT2匹敵。 BDH可被視為一種大腦模型。在推理過程中,BDH的工作記憶完全依賴於使用尖峰神經元的赫布學習所實現的突觸可塑性。我們通過實驗證實,當BDH在處理語言輸入時聽到或推理特定概念時,特定的個別突觸會增強連接。BDH的神經元交互網絡是一個高度模塊化且具有重尾度分佈的圖。BDH模型在生物學上是合理的,它解釋了人類神經元可能用於實現言語的一種機制。 BDH專為可解釋性而設計。其激活向量稀疏且為正。我們在語言任務上展示了BDH的單義性。狀態的可解釋性,超越了神經元與模型參數的可解釋性,是BDH架構的固有特性。
MCP(模型控制协议)标准化了大型语言模型(LLMs)与外部系统的交互方式,为通用智能体奠定了基础。然而,现有的MCP基准测试范围仍然狭窄:它们主要关注读取密集型任务或交互深度有限的任务,未能捕捉到现实世界工作流程的复杂性和真实性。为了弥补这一不足,我们提出了MCPMark,这是一个旨在以更现实和全面的方式评估MCP应用的基准测试。它由领域专家和AI代理共同创建的127个高质量任务组成。每个任务从一个精心策划的初始状态开始,并包含一个用于自动验证的程序化脚本。这些任务要求与环境进行更丰富和多样化的交互,涉及广泛的创建、读取、更新和删除(CRUD)操作。我们使用一个在工具调用循环中运行的最小化代理框架,对前沿的LLMs进行了全面评估。实证结果表明,表现最佳的模型gpt-5-medium仅达到52.56%的pass@1和33.86%的pass^4,而其他广受认可的强模型,包括claude-sonnet-4和o3,pass@1低于30%,pass^4低于15%。平均而言,LLMs每个任务需要16.2次执行轮次和17.4次工具调用,显著超过了之前的MCP基准测试,凸显了MCPMark的压力测试性质。
儘管強化學習(RL)能有效提升視覺語言模型(VLMs)的推理能力,現有方法仍高度依賴於需大量人工構建與驗證的勞動密集型數據集,導致訓練成本極高,從而限制了VLMs的實際部署。為應對這一挑戰,我們提出了Vision-Zero,這是一個領域無關的框架,通過從任意圖像對生成的競技視覺遊戲,實現VLM的自我提升。具體而言,Vision-Zero包含三大特性:(1)策略性自我對弈框架:Vision-Zero在“誰是臥底”式遊戲中訓練VLMs,模型在多個角色間進行策略性推理與行動。通過互動遊戲,模型自主生成訓練數據,無需人工標註。(2)基於任意圖像的遊戲生成:與現有的遊戲化框架不同,Vision-Zero能從任意圖像生成遊戲,從而增強模型在跨領域的推理能力,並展現出對不同任務的強大泛化性。我們利用三類截然不同的圖像數據集——基於CLEVR的合成場景、圖表及真實世界圖像,展示了這一多功能性。(3)可持續性能提升:我們引入了迭代自我對弈策略優化(Iterative-SPO),這是一種新穎的訓練算法,交替進行自我對弈與帶有可驗證獎勵的強化學習(RLVR),緩解了僅自我對弈訓練中常見的性能瓶頸,實現了長期的持續改進。儘管使用無標籤數據,Vision-Zero在推理、圖表問答及視覺中心理解任務上均達到了業界領先水平,超越了其他基於標註的方法。模型與代碼已發佈於https://github.com/wangqinsi1/Vision-Zero。
推理能力已成為大型語言模型(LLMs)中的一項關鍵能力。通過強化學習(RL),尤其是群體相對策略優化(GRPO),這些模型能夠解決諸如數學和代碼生成等複雜任務。基於這些進展,近期研究試圖將推理能力擴展至視覺-語言模型(VLMs),並在多樣化的視覺任務中取得了令人鼓舞的成果。儘管如此,我們的研究揭示了多模態推理的雙重特性:雖然它顯著增強了邏輯推理能力並促進了在難題上的表現,但可能逐漸削弱感知基礎,導致在原本基礎的視覺問題上出現識別失敗。通過進一步分析,我們將此現象歸因於視覺遺忘,即長時間的推理過程使模型逐漸忽視視覺輸入。為解決這一問題,我們提出了視覺錨定策略優化(VAPO),這是一種簡單而有效的方法,能明確引導推理過程朝向視覺基礎的軌跡發展。我們的最終模型VAPO-Thinker-7B顯著增強了模型對視覺信息的依賴,並在廣泛的基準測試中取得了新的最先進成果。項目頁面:https://xytian1008.github.io/VAPO/
隨著監督式微調(SFT)從輕量級的後訓練步驟演變為與中期訓練規模相當的計算密集型階段,數據效率在預算有限的情況下對齊大型語言模型(LLM)變得至關重要。現有的數據修剪方法存在設計上的碎片化問題:它們要麼僅在樣本層面操作,要麼僅在詞元層面操作,未能同時優化這兩個維度。這種割裂導致了顯著的效率低下——高價值樣本可能仍包含冗餘詞元,而詞元層面的修剪往往會丟失嵌入在個別樣本中的關鍵指令或校正信號。為解決這一瓶頸,我們引入了誤差-不確定性(EU)平面,這是一個診斷框架,能夠聯合表徵訓練數據在樣本和詞元層面的異質效用。基於這一洞察,我們提出了基於象限的微調(Q-Tuning),這是一個統一框架,能夠策略性地協調樣本修剪和詞元修剪。Q-Tuning採用兩階段策略:首先,進行樣本層面的分類,保留富含信息性誤解或校準信號的樣本;其次,應用非對稱的詞元修剪策略,使用上下文感知的評分機制,僅從誤解樣本中修剪較不顯著的詞元,同時完整保留校準樣本。我們的方法在五個多樣化的基準測試中創下了新的技術水平。值得注意的是,在SmolLM2-1.7B上,Q-Tuning僅使用12.5%的原始訓練數據,就實現了相較於全數據SFT基線平均+38%的提升。作為首個持續超越全數據訓練的動態修剪方法,Q-Tuning為在預算受限的LLM SFT中最大化數據利用提供了一個實用且可擴展的藍圖。
儘管大型語言模型(LLMs)在事實性問答任務上展現了強大的性能,它們仍容易產生幻覺和不真實的回應,尤其是在任務要求超出其參數化知識範圍時。事實上,真實性不僅需要準確性——模型還必須能夠識別不確定性,並在無法確定時選擇棄答,以避免幻覺。這對現有方法提出了根本性的挑戰:優化準確性的方法往往會放大幻覺,而鼓勵棄答的方法則可能變得過於保守,犧牲正確答案。這兩種極端最終都損害了真實性。在本研究中,我們提出了TruthRL,這是一個直接優化LLMs真實性的通用強化學習(RL)框架。具體而言,我們使用GRPO實現了TruthRL,並設計了一種簡單而有效的三元獎勵機制,區分正確答案、幻覺和棄答。它不僅通過提供正確回應來激勵模型減少幻覺,還允許模型在不確定時棄答,從而提升真實性。在四個知識密集型基準上的廣泛實驗表明,與普通RL相比,TruthRL顯著減少了28.9%的幻覺,並提升了21.1%的真實性,在各種骨幹模型(如Qwen、Llama)下,無論是否結合檢索,均表現出穩定的增益。深入的消融研究顯示,以準確性為導向的傳統方法,如監督微調或使用二元獎勵的RL,難以在事實正確性和不確定性之間取得平衡。相比之下,我們提出的以真實性為導向的TruthRL在準確性和真實性上均表現出色,凸顯了學習目標設計對於開發真實LLMs的重要性。
大型語言模型(LLMs)儘管僅基於文本進行訓練,卻意外地發展出了豐富的視覺先驗知識。這些先驗知識使得在相對少量的多模態數據下,能夠解鎖視覺任務的潛在能力,甚至在某些情況下,無需見過任何圖像也能執行視覺任務。通過系統性分析,我們揭示了視覺先驗——即在語言預訓練過程中獲得的關於視覺世界的隱含、湧現知識——是由可分離的感知與推理先驗構成,各自具有獨特的擴展趨勢和來源。我們發現,LLM的潛在視覺推理能力主要通過對推理密集型數據(如代碼、數學、學術文本)的預訓練而發展,並呈現漸進式擴展。這種從語言預訓練中獲得的推理先驗是可遷移且普遍適用於視覺推理的。相比之下,感知先驗則更廣泛地來自於多樣化的語料庫,且感知能力對視覺編碼器和視覺指令調優數據更為敏感。同時,描述視覺世界的文本被證明至關重要,但其性能影響迅速達到飽和。基於這些洞察,我們提出了一種以數據為中心的預訓練視覺感知LLM的方法,並在1T token規模的預訓練中進行了驗證。我們的研究結果基於超過100項對照實驗,耗費了500,000 GPU小時,涵蓋了從LLM預訓練到視覺對齊及監督式多模態微調的完整MLLM構建流程,跨越五種模型規模、多種數據類別與混合方式,以及多種適應設置。除了主要發現外,我們還提出並探討了若干假設,並引入了多層次存在基準(MLE-Bench)。整體而言,這項工作提供了一種從語言預訓練中刻意培養視覺先驗的新方法,為下一代多模態LLM的發展鋪平了道路。
我們介紹了DC-VideoGen,這是一個用於高效視頻生成的訓練後加速框架。DC-VideoGen可應用於任何預訓練的視頻擴散模型,通過將其適應於深度壓縮的潛在空間並進行輕量級微調來提升效率。該框架基於兩項關鍵創新:(i) 深度壓縮視頻自動編碼器,採用新穎的塊因果時間設計,在保持重建質量和對更長視頻的泛化能力的同時,實現了32倍/64倍的空間壓縮和4倍的時間壓縮;以及(ii) AE-Adapt-V,一種穩健的適應策略,能夠快速且穩定地將預訓練模型轉移到新的潛在空間。使用DC-VideoGen對預訓練的Wan-2.1-14B模型進行適應,僅需在NVIDIA H100 GPU上花費10個GPU天。加速後的模型在不影響質量的情況下,推理延遲最多降低了14.8倍,並進一步實現了在單個GPU上生成2160x3840分辨率視頻的能力。代碼:https://github.com/dc-ai-projects/DC-VideoGen。
我們推出OceanGym,這是首個專為海洋水下實體智能體設計的綜合基準測試平台,旨在推動AI在最具挑戰性的現實環境中的發展。與陸地或空中領域不同,水下環境面臨極端的感知與決策挑戰,包括低能見度、動態洋流等,使得智能體的有效部署異常困難。OceanGym涵蓋了八個真實任務領域,並採用由多模態大型語言模型(MLLMs)驅動的統一智能體框架,該框架整合了感知、記憶與序列決策能力。智能體需理解光學與聲納數據,在複雜環境中自主探索,並在這些嚴苛條件下完成長期目標。大量實驗表明,當前最先進的MLLM驅動智能體與人類專家之間存在顯著差距,凸顯了在海洋水下環境中感知、規劃與適應性的持續難題。通過提供一個高保真、精心設計的平台,OceanGym為開發強健的實體AI及將這些能力轉移至現實世界的自主海洋水下載具建立了試驗場,標誌著向能夠在地球最後未探索疆域之一運作的智能體邁出了決定性的一步。代碼與數據可在https://github.com/OceanGPT/OceanGym獲取。
可驗證獎勵的強化學習(RLVR)在有效解決複雜任務的同時,於訓練期間要求極長的上下文長度,導致了顯著的計算成本。雖然多階段訓練能在一定程度上緩解這一問題,但從過短的上下文開始往往會造成不可逆的性能下降,最終未能顯著降低整體訓練計算量。本文提出了一種簡單而有效的RLVR適應方法——**無思維策略初始化(TFPI)**,它連接了長思維鏈(CoT)蒸餾與標準RLVR。TFPI採用了一種名為*ThinkFree*的操作,通過直接*</think>*附加來顯式地捨棄思維內容,從而減少推理過程中的令牌使用。使用*ThinkFree*適應後的輸入進行訓練,不僅提升了性能,還降低了令牌消耗,即便在原有的慢思維模式下也是如此。多項基準測試的廣泛實驗表明,TFPI加速了RL的收斂,達到了更高的性能上限,並產生了更為令牌高效的推理模型,而無需專門的獎勵機制或複雜的訓練設計。僅憑TFPI,我們便訓練了一個4B模型,在AIME24上達到了89.0%的準確率,在LiveCodeBench上達到了65.5%的準確率,且使用的H20小時少於4K。
基於大型語言模型(LLM)的評判利用強大的LLM來高效評估候選內容並提供評分。然而,LLM生成評判所固有的偏見和脆弱性引發了擔憂,這凸顯了在學術同行評審等敏感場景中區分這些評判的迫切需求。在本研究中,我們提出並形式化了評判檢測任務,並系統地探討了LLM生成評判的可檢測性。與LLM生成文本檢測不同,評判檢測僅依賴於評分和候選內容,這反映了在檢測過程中通常無法獲得文本反饋的現實場景。我們的初步分析表明,現有的LLM生成文本檢測方法由於無法捕捉評分與候選內容之間的互動——這是有效評判檢測的關鍵方面——表現不佳。受此啟發,我們引入了J-Detector,這是一種輕量級且透明的神經檢測器,通過顯式提取的語言特徵和LLM增強特徵來連結LLM評判者的偏見與候選內容的屬性,以實現準確檢測。跨多樣數據集的實驗證明了J-Detector的有效性,並展示了其可解釋性如何量化LLM評判者的偏見。最後,我們分析了影響LLM生成評判可檢測性的關鍵因素,並驗證了評判檢測在現實場景中的實際效用。
大型語言模型(LLMs)在測試階段擴展時的可靠性,通常透過外部驗證器或獎勵模型來評估,這些工具能夠區分正確的推理與有缺陷的邏輯。先前的研究普遍認為,過程獎勵模型(PRMs)——對每個中間推理步驟進行評分——優於僅評估最終答案的結果獎勵模型(ORMs)。這一觀點主要基於數學相關狹窄領域的證據。我們首次對四種獎勵模型變體進行了統一評估,包括判別式ORMs和PRMs(\DisORM, \DisPRM)以及生成式ORMs和PRMs(\GenORM, \GenPRM),涵蓋了14個不同領域。與傳統觀念相反,我們發現:(i) \DisORM與\DisPRM表現相當,(ii) \GenPRM並不具競爭力,以及(iii)總體而言,\GenORM是最為穩健的,在所有測試領域中均展現出顯著且一致的優勢。我們將此歸因於PRM式的逐步評分,它繼承了LLM自動標註的標籤噪聲,並且在評估長推理軌跡(包括涉及自我修正的推理)時存在困難。我們的理論分析表明,隨著推理長度的增加,逐步聚合會放大錯誤,而我們的實證觀察也證實了這一效應。這些發現挑戰了細粒度監督總是更好的普遍假設,並支持在多領域部署中採用生成式結果驗證。我們公開了代碼、數據集和檢查點,以促進未來在多領域設置中的研究,詳見https://github.com/db-Lee/Multi-RM{\small\texttt{https://github.com/db-Lee/Multi-RM}}。
全景图像拥有完整的视场角(360°×180°),相较于透视图像提供了更为全面的视觉描述。得益于这一特性,全景深度估计在三维视觉领域正获得越来越多的关注。然而,由于全景数据的稀缺,以往的方法往往局限于域内设定,导致零样本泛化能力较差。此外,由于全景图像固有的球面畸变,许多方法依赖于透视分割(如立方体贴图),这导致了效率的次优化。为应对这些挑战,我们提出了DA²:任意方向深度估计,这是一种精确、零样本可泛化且完全端到端的全景深度估计器。具体而言,为扩大全景数据规模,我们引入了一个数据整理引擎,用于从透视图像生成高质量的全景深度数据,并创建了约543K对全景RGB-深度数据,使总数达到约607K。为进一步缓解球面畸变,我们提出了SphereViT,它显式利用球面坐标来强化全景图像特征中的球面几何一致性,从而提升了性能。在多个数据集上的综合基准测试清晰地展示了DA²的领先性能,在AbsRel指标上平均比最强的零样本基线提升了38%。令人惊讶的是,DA²甚至超越了先前的域内方法,凸显了其卓越的零样本泛化能力。此外,作为一个端到端解决方案,DA²相比基于融合的方法展现出更高的效率。代码及整理的全景数据将一并公开。项目页面:https://depth-any-in-any-dir.github.io/。
現代大型推理模型的卓越能力,主要通過監督微調和強化學習等後訓練技術得以釋放。然而,這些改進背後的架構機制在很大程度上仍不透明。在本研究中,我們利用電路分析來展示,針對複雜推理的後訓練促成了新型、功能專注的注意力頭的湧現。這些頭共同支持結構化推理和計算。我們對Qwen系列和DeepSeek蒸餾模型的比較分析揭示,這些湧現的頭在不同訓練機制下以不同方式演化。蒸餾和監督微調促成了穩定推理頭的累積增加。相比之下,群體相對策略優化則以動態搜索模式運作:相對較少的注意力頭被迭代激活、評估和修剪,其存留緊密跟蹤任務獎勵信號的波動。此外,我們發現可控的思考開/關模型並未擁有專用的思考頭。相反,關閉顯式推理會觸發一組更廣泛但效率較低的補償頭。通過消融和定性分析,我們將這些電路層面的動態與一個關鍵的性能權衡聯繫起來:強化後的頭能夠為難題提供精妙的解決策略,但也可能引入過度思考的失敗模式,如在簡單任務上出現計算錯誤或邏輯循環。這些發現將電路層面的動態與宏觀性能相聯繫,識別出一個固有的張力:複雜推理的代價是基礎計算的可靠性。更廣泛地,我們的工作為未來訓練策略設計指明了方向,強調在發展有效推理策略的同時,需確保執行過程的可靠無誤。
随着基于大语言模型(LLM)的智能体在现实生活场景中的部署日益增多,现有基准测试已无法充分捕捉其在处理海量信息、利用多样化资源以及管理动态用户交互方面的固有复杂性。为填补这一空白,我们推出了VitaBench,一个旨在评估智能体在真实世界情境下执行多样化交互任务能力的挑战性基准测试。VitaBench从外卖配送、店内消费及在线旅游服务等日常应用中汲取灵感,为智能体构建了迄今为止最为复杂的生活服务模拟环境,包含66种工具。通过一个摒弃领域特定策略的框架,我们实现了这些场景与工具的灵活组合,生成了100个跨场景任务(主要结果)和300个单场景任务。每项任务均源自多个真实用户请求,要求智能体跨越时空维度进行推理,运用复杂的工具集,主动澄清模糊指令,并在多轮对话中追踪用户意图的变化。此外,我们提出了一种基于评分标准的滑动窗口评估器,能够在复杂环境及随机交互中,对多样化的解决路径进行稳健评估。我们的全面评估显示,即便是最先进的模型,在跨场景任务上的成功率也仅为30%,而在其他任务上的成功率则不足50%。总体而言,我们相信VitaBench将成为推动AI智能体在实际应用中发展的重要资源。代码、数据集及排行榜可通过https://vitabench.github.io/获取。
隨著擴散模型的進步,圖像到視頻生成已取得顯著進展,然而生成具有真實運動的視頻仍然極具挑戰性。這一難題源於準確建模運動的複雜性,其中涉及捕捉物理約束、物體交互以及特定領域的動態特性,這些特性難以在多樣化場景中普遍適用。為解決這一問題,我們提出了MotionRAG,這是一個檢索增強框架,通過上下文感知的運動適應(CAMA)從相關參考視頻中提取運動先驗,從而提升運動的真實感。關鍵技術創新包括:(i)基於檢索的管道,利用視頻編碼器和專用重採樣器提取高層次運動特徵,以提煉語義運動表示;(ii)通過因果變換器架構實現的上下文學習方法,用於運動適應;(iii)基於注意力的運動注入適配器,無縫整合轉移的運動特徵到預訓練的視頻擴散模型中。大量實驗表明,我們的方法在多個領域和各種基礎模型上均取得了顯著改進,且在推理過程中計算開銷可忽略不計。此外,我們的模塊化設計使得只需更新檢索數據庫而無需重新訓練任何組件,即可實現對新領域的零樣本泛化。這項研究通過實現運動先驗的有效檢索與轉移,增強了視頻生成系統的核心能力,促進了真實運動動態的合成。
擴散式大型語言模型(dLLMs)近期在研究界引起了廣泛關注,作為自迴歸生成的一種有前景的替代方案,它提供了並行的詞元預測和更低的推理延遲。然而,其並行解碼的潛力仍未被充分探索,現有的開源模型仍需要接近詞元長度的解碼步驟來確保性能。為解決這一問題,我們引入了dParallel,這是一種簡單而有效的方法,能夠釋放dLLMs的固有並行性以實現快速採樣。我們發現,並行解碼的關鍵瓶頸在於掩碼詞元的序列確定性收斂。基於這一洞察,我們提出了方法的核心:確定性強制蒸餾,這是一種新穎的訓練策略,通過蒸餾模型使其遵循原始採樣軌跡,同時強制其在掩碼詞元上更快且並行地達到高確定性。在各種基準測試上的廣泛實驗表明,我們的方法能夠顯著減少解碼步驟的數量,同時保持性能。當應用於LLaDA-8B-Instruct模型時,dParallel在GSM8K上將解碼步驟從256減少到30,實現了8.5倍的加速且無性能下降。在MBPP基準測試中,它將解碼步驟從256減少到24,實現了10.5倍的加速並保持了準確性。我們的代碼可在https://github.com/czg1225/dParallel 獲取。
在訓練大型語言模型(LLMs)時,Muon優化器始終比Adam更快,但其成功背後的機制尚不明確。本文通過關聯記憶的視角揭示了這一機制。通過消融Muon優化的變壓器組件,我們發現LLMs的關聯記憶參數,即值與輸出(VO)注意力權重和前饋網絡(FFNs),是Muon優越性的主要貢獻者。基於這一關聯記憶視角,我們進一步解釋了Muon在現實世界語料庫上的優越性,這些語料庫本質上是重尾分佈的:少數類別(尾類)出現的頻率遠低於其他類別。這種優越性通過兩個關鍵特性得以解釋:(i)其更新規則始終產生比Adam更各向同性的奇異譜;因此,(ii)在重尾數據上,它比Adam更有效地優化尾類。除了實證證據外,我們通過分析在類別不平衡數據下的一層關聯記憶模型,從理論上證實了這些發現。我們證明,無論特徵嵌入如何,Muon始終實現跨類別的平衡學習,而Adam則可能因嵌入特性而導致學習誤差的顯著差異。總之,我們的實證觀察和理論分析揭示了Muon的核心優勢:其更新規則與線性關聯記憶的外積結構一致,使得在重尾分佈中比Adam更平衡且有效地學習尾類。
確保擴散生成圖像與輸入提示之間的精確多模態對齊,一直是長期以來的挑戰。早期研究通過高質量偏好數據微調擴散權重,但這類數據往往有限且難以擴展。近期的基於編輯的方法進一步細化了生成圖像的局部區域,但可能損害圖像的整體質量。在本研究中,我們提出了隱式多模態引導(IMG),這是一種無需額外數據或編輯操作的新型基於重新生成的多模態對齊框架。具體而言,給定生成的圖像及其提示,IMG首先利用多模態大語言模型(MLLM)識別不對齊之處;其次引入隱式對齊器,通過操控擴散條件特徵來減少不對齊並實現重新生成;最後將重新對齊目標表述為可訓練的目標,即迭代更新的偏好目標。在SDXL、SDXL-DPO和FLUX上的廣泛定性與定量評估表明,IMG優於現有的對齊方法。此外,IMG作為一種靈活的即插即用適配器,無縫增強了基於微調的對齊方法。我們的代碼將在https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment 上公開。
人類能否識別AI生成的(偽造)影片並提供具體理由? 儘管影片生成模型已迅速進步,但一個關鍵維度——即人類能否在生成的影片中檢測到深度偽造的痕跡,也就是揭示影片為機器生成的時空基礎視覺偽影——在很大程度上被忽視了。我們引入了DeeptraceReward,這是第一個細粒度、空間與時間感知的基準,它為影片生成獎勵標註了人類感知到的偽造痕跡。該數據集包含對3.3K高質量生成影片的4.3K詳細註解。每個註解提供自然語言解釋,精確指出包含感知痕跡的邊界框區域,並標記精確的起始和結束時間戳。我們將這些註解整合為9大類導致人類識別影片為AI生成的深度偽造痕跡,並訓練多模態語言模型(LMs)作為獎勵模型,以模仿人類的判斷和定位。在DeeptraceReward上,我們的7B獎勵模型在偽造線索識別、定位和解釋方面平均比GPT-5高出34.7%。有趣的是,我們觀察到一致的難度梯度:二元的偽造與真實分類比細粒度的深度偽造痕跡檢測要容易得多;在後者中,從自然語言解釋(最易)、到空間定位、再到時間標註(最難),性能逐漸下降。通過突出人類感知的深度偽造痕跡,DeeptraceReward為社會意識和可信賴的影片生成提供了一個嚴格的測試平台和訓練信號。
尽管先前的AI科学家系统能够生成新颖的发现,但它们往往缺乏聚焦,难以产出针对人类紧迫挑战、具有科学价值的贡献。我们推出了DeepScientist系统,旨在通过执行目标导向、完全自主的科学发现过程,跨越长达数月的时间线,来克服这一局限。该系统将发现过程形式化为一个贝叶斯优化问题,并通过“假设、验证、分析”这一分层评估流程加以实施。借助累积的发现记忆库,这一循环智能地平衡了对新假设的探索与利用,有选择地将最有前景的发现提升至更高保真度的验证层级。在消耗超过20,000 GPU小时的计算资源后,该系统生成了约5,000个独特的科学构想,并实验验证了其中约1,100个,最终在三个前沿AI任务上分别以183.7%、1.9%和7.9%的优势超越了人类设计的最先进(SOTA)方法。这项工作首次提供了大规模证据,证明AI能够在科学任务上逐步超越人类SOTA,产生真正推动科学发现前沿的有价值发现。为了促进这一过程的进一步研究,我们将在https://github.com/ResearAI/DeepScientist/开源所有实验日志和系统代码。
我們研究代碼到指標的回歸:預測代碼執行的數值結果,這是一項因編程語言的開放性而具有挑戰性的任務。雖然先前的方法依賴於繁重且特定領域的特徵工程,但我們展示了一個單一的統一回歸語言模型(RLM)能夠同時從文本中直接預測:(i) 跨多種高級語言(如Python和C++)的代碼內存佔用,(ii) Triton GPU內核的延遲,以及(iii) 以ONNX表示的訓練神經網絡的準確性和速度。特別是,一個相對較小的300M參數的RLM,從T5Gemma初始化,在APPS的競賽編程提交中獲得了>0.9的斯皮爾曼等級相關性,並且在CodeNet的17種不同語言中,單一統一模型的平均斯皮爾曼等級相關性>0.5。此外,RLM在五個經典的NAS設計空間中獲得了最高的平均肯德爾-陶係數0.46,這些空間先前由圖神經網絡主導,並且能夠同時預測多種硬件平台上的架構延遲。
大型語言模型(LLM)代理受限於有限的上下文窗口,因此需要外部記憶系統來實現長期信息理解。當前增強記憶的代理通常依賴於預定義的指令和工具來更新記憶。然而,隨著記憶系統變得更加複雜,語言模型可能缺乏確定存儲哪些信息、如何結構化這些信息以及何時更新這些信息的能力。這導致了次優的記憶構建和信息丟失。為此,我們提出了Mem-alpha,這是一個強化學習框架,通過互動和反饋訓練代理有效管理複雜的記憶系統。我們還構建了一個專門的訓練數據集,涵蓋多樣化的多輪互動模式,並配備了全面的評估問題,旨在教授有效的記憶管理。在訓練過程中,代理處理序列信息塊,學習提取和存儲相關內容,然後更新記憶系統。獎勵信號來自於對完整互動歷史的下游問答準確性,直接優化記憶構建。為了展示我們訓練框架的有效性,我們設計了一個由核心、情節和語義組件組成的記憶架構,配備了多種記憶操作工具。實證評估表明,Mem-alpha在現有增強記憶代理基線上取得了顯著改進。儘管僅在最大長度為30k個標記的實例上進行訓練,我們的代理在超過400k個標記的序列上表現出顯著的泛化能力,超過訓練長度的13倍,這凸顯了Mem-alpha的魯棒性。
現代循環神經網路因其線性時間複雜度,已成為三維重建領域中具有競爭力的架構。然而,當應用超出訓練上下文長度時,其性能顯著下降,顯示出有限的長度泛化能力。在本研究中,我們從測試時訓練的角度重新審視三維重建基礎模型,將其設計框架化為一個線上學習問題。基於這一視角,我們利用記憶狀態與新到觀測之間的對齊置信度,推導出記憶更新的閉式學習率,以在保留歷史資訊與適應新觀測之間取得平衡。這種無需訓練的干預方法,命名為TTT3R,大幅提升了長度泛化能力,在全局姿態估計上相較基線實現了兩倍的提升,同時僅需6GB的GPU記憶體即可以20FPS的速度處理數千張影像。程式碼可在https://rover-xingyu.github.io/TTT3R獲取。
視聽語音分離(AVSS)方法利用視覺線索來提取目標語音,並在嘈雜的聲學環境中展現了卓越的分離質量。然而,這些方法通常涉及大量參數且計算成本高昂,這在許多應用中是不可接受的,尤其是當語音分離僅作為進一步語音處理的預處理步驟時。為解決這一問題,我們提出了一種高效的AVSS方法,名為Dolphin。在視覺特徵提取方面,我們開發了DP-LipCoder,這是一種雙路徑輕量級視頻編碼器,能將唇部運動轉化為離散的音頻對齊語義標記。在音頻分離方面,我們構建了一個輕量級的編碼器-解碼器分離器,其中每一層都包含一個全局-局部注意力(GLA)模塊,以高效捕捉多尺度依賴關係。在三個基準數據集上的實驗表明,Dolphin不僅在分離質量上超越了當前最先進(SOTA)模型,還在效率上取得了顯著提升:參數量減少超過50%,MACs降低超過2.4倍,GPU推理速度加快超過6倍。這些結果表明,Dolphin為現實場景中的高性能AVSS提供了一個實用且可部署的解決方案。我們的代碼和演示頁面已公開於http://cslikai.cn/Dolphin/。
強化學習(Reinforcement Learning, RL)在提升大型語言模型(Large Language Models, LLMs)的推理能力方面展現了顯著成效。相較於基於結果的RL,過程監督式強化學習(Process-Supervised RL, PSRL)已成為一種更為有效的範式。然而,現有的PSRL方法在探索效率上存在限制,無論是在分支位置的選擇還是採樣方面。本文提出了一種新穎的PSRL框架(AttnRL),該框架能夠為推理模型實現高效的探索。基於初步觀察,即具有高注意力分數的步驟與推理行為相關,我們建議從高價值的位置進行分支。此外,我們開發了一種適應性採樣策略,該策略考慮了問題難度和歷史批次大小,確保整個訓練批次保持非零的優勢值。為了進一步提高採樣效率,我們為PSRL設計了一個一步離策略訓練流程。在多個具有挑戰性的數學推理基準上的廣泛實驗表明,我們的方法在性能、採樣和訓練效率方面均優於先前的方法。
在线对齐(例如GRPO)通常比离线对齐(例如DPO)表现更优——但原因何在?借鉴行为经济学中的前景理论,我们提出了一种以人为中心的解释。我们证明,在线同策略采样能更好地近似模型产出的人类感知分布,而PPO/GRPO风格的裁剪——最初引入是为了稳定训练——实际上恢复了人类在概率感知上的偏差。从这个意义上讲,PPO/GRPO已然充当了感知损失的角色。我们的理论进一步表明,在线与离线的二分法本身对于最大化人类效用而言是偶然的,因为通过以模仿人类感知的方式有选择性地训练任何数据,而非局限于在线同策略数据,我们也能达到相同的效果。这样做将使我们能够在不牺牲性能的前提下,更快、更经济、更灵活地进行后训练。为此,我们提出了一种设计模式,明确将概率的感知失真融入如DPO/KTO/GRPO等目标中,创造出它们的“人线”变体。令人惊讶的是,我们发现这些“人线”变体,即便使用离线异策略数据进行训练,也能在可验证与不可验证任务上匹敌其在线对应物的表现。
構建能夠通過與外部工具互動來擴展其能力的大型語言模型代理,代表了人工智慧研究和應用的新前沿。在本文中,我們介紹了InfoAgent,這是一個由創新的數據合成管道和協調的網絡搜索工具驅動的深度研究代理。為了構建具有挑戰性且難以找到的查詢,我們建立了實體樹並應用子樹採樣與實體模糊化,以系統性地增加問題的難度。與之前依賴商業搜索工具的工作不同,我們開發了專用的自託管搜索基礎設施,增強了代理環境的透明度,並促進了代理能力的進一步提升。我們通過測量正確回答問題所需的平均工具調用次數來評估數據管道的有效性,並展示了我們的代理在配備我們的工具時表現更佳。我們的InfoAgent是從Qwen3-14B進行後訓練的,採用兩階段配方:冷啟動監督微調以灌輸長遠搜索行為,隨後進行強化學習,顯著提高了推理驅動的工具使用。通過我們的方法,InfoAgent在BrowseComp上達到了15.3%的準確率,在BrowseComp-ZH上達到了29.2%,在Xbench-DS上達到了40.4%,超越了之前的開源深度研究代理,如WebSailor-72B和DeepDive-32B。
大型語言模型(LLM)的安全性是大規模部署中最迫切的挑戰之一。儘管多數研究和全球討論聚焦於通用危害,例如模型協助用戶傷害自己或他人,企業卻面臨更根本的擔憂:基於LLM的代理是否在其預定使用場景中安全。為此,我們引入「操作安全性」的概念,定義為LLM在執行特定任務時,能夠適當地接受或拒絕用戶查詢的能力。我們進一步提出OffTopicEval,這是一個評估套件和基準,用於衡量操作安全性,無論是在通用場景還是在特定代理使用案例中。我們對包含20個開源權重LLM的六個模型家族進行評估,結果顯示,儘管各模型表現不一,但它們在操作安全性方面均存在嚴重不足。即使是表現最強的模型——Qwen-3(235B)達到77.77%,Mistral(24B)達到79.96%——也遠未達到可靠的操作安全性,而GPT模型的分數穩定在62-73%之間,Phi僅獲得中等分數(48-70%),Gemma和Llama-3則分別跌至39.53%和23.84%。雖然操作安全性是模型對齊的核心問題,但為抑制這些失敗,我們提出基於提示的引導方法:查詢基礎(Q-ground)和系統提示基礎(P-ground),這些方法顯著提升了OOD拒絕能力。Q-ground帶來最高23%的穩定增益,而P-ground則提供更大的提升,使Llama-3.3(70B)提高41%,Qwen-3(30B)提高27%。這些結果凸顯了操作安全性干預的迫切需求,以及基於提示的引導作為邁向更可靠LLM代理的第一步所展現的潛力。
近期的強化學習(RL)方法顯著提升了大型語言模型(LLMs)的規劃能力,然而其有效性的理論基礎仍不明確。在本研究中,我們通過一種可處理的基於圖的抽象來探討RL的優勢與局限,重點關注策略梯度(PG)和Q學習方法。我們的理論分析揭示,監督式微調(SFT)可能引入基於共現的虛假解,而RL則主要通過探索實現正確規劃,這凸顯了探索在促進更好泛化中的角色。然而,我們也發現PG存在多樣性崩潰的問題,即訓練過程中輸出多樣性下降,甚至在達到完美準確率後仍持續存在。相比之下,Q學習提供了兩個關鍵優勢:離策略學習和收斂時的多樣性保持。我們進一步證明,在Q學習中,精心設計獎勵是防止獎勵欺騙的必要條件。最後,將我們的框架應用於現實世界的規劃基準Blocksworld,我們確認了這些行為在實踐中的表現。
開放大型語言模型(LLMs)的蓬勃發展正促進人工智慧(AI)研究與創新的活躍生態系統。然而,無論是在公開發布前後,用於開發開放LLMs的合作方式尚未得到全面研究,這限制了我們對開放LLM項目如何啟動、組織和治理的理解,以及進一步培育這一生態系統的機會。我們通過對開放LLMs開發和再利用生命週期中的合作進行探索性分析來彌補這一空白,並基於對來自北美、歐洲、非洲和亞洲的基層項目、研究機構、初創企業和大型科技公司的14個開放LLMs開發者的半結構化訪談。我們為研究和實踐做出了三項關鍵貢獻。首先,開放LLM項目中的合作遠遠超出了LLMs本身,涵蓋了數據集、基準測試、開源框架、排行榜、知識共享與討論論壇以及計算合作夥伴等。其次,開放LLM開發者具有多種社會、經濟和技術動機,從民主化AI訪問和促進開放科學到建立區域生態系統和擴展語言代表性。第三,所採樣的開放LLM項目展示了五種不同的組織模式,從單一公司項目到非營利組織支持的基層項目,這些模式在控制集中度和社區參與策略上有所不同,並貫穿於開放LLM生命週期的各個階段。最後,我們為尋求支持全球社區構建更開放AI未來的利益相關者提供了實用建議。
在當今最先進的視覺語言模型(VLMs)中,基礎視覺理解是否真的已被攻克?我們提出了VisualOverload,這是一個略有不同的視覺問答(VQA)基準測試,包含2,720個問答對,並配有私密保存的真實答案。與以往通常聚焦於近乎全局圖像理解的VQA數據集不同,VisualOverload挑戰模型在密集(或稱過載)場景中執行簡單、無需知識的視覺任務。我們的數據集由公共領域繪畫的高分辨率掃描圖像組成,這些畫作中充滿了多個人物、動作以及展開的子情節,背景細節豐富。我們手動為這些圖像標註了六類任務的問題,以探測對場景的深入理解。我們假設,現有的基準測試高估了VLMs的表現,對細節的編碼與推理對它們而言仍是一項挑戰,尤其是在面對密集場景時。確實,我們觀察到,在測試的37個模型中,即便是最佳模型(o3)在我們最難的測試集上僅達到了19.6%的準確率,而在所有問題上的總體準確率為69.5%。除了全面的評估外,我們還通過錯誤分析補充了基準測試,揭示了多種失敗模式,包括計數能力不足、光學字符識別(OCR)失敗以及在複雜任務下顯著的邏輯不一致性。總之,VisualOverload揭示了當前視覺模型中的一個關鍵缺口,並為社區開發更好的模型提供了重要資源。 基準測試網址:http://paulgavrikov.github.io/visualoverload
我們提出了語音推理能力評估(VERA),這是一個用於評估語音互動系統在即時對話限制下推理能力的基準。VERA包含2,931個源自現有文本基準的語音原生片段,並分為五個類別(數學、網絡、科學、長上下文、事實)。每個項目都針對語音互動進行了改編,同時保留了推理難度。VERA使得模型家族內能夠直接進行文本與語音的比較,並支持分析架構選擇如何影響可靠性。我們評估了12個當代語音系統以及強大的文本基線,觀察到顯著且一致的模態差距:在競賽數學中,領先的文本模型達到74.8%的準確率,而其語音對應版本僅達到6.1%;在宏觀平均的各類別中,最佳文本模型達到54.0%,而語音模型僅為11.3%。延遲-準確率分析揭示了一個低延遲平台期,快速語音系統的準確率集中在約10%,而要接近文本性能則需要犧牲即時互動。診斷實驗表明,常見的緩解措施效果有限。增加“思考時間”帶來的收益微乎其微;將推理與敘述分離的解耦級聯系統提高了準確率,但仍遠不及文本水平,並引入了典型的接地/一致性錯誤。失敗分析進一步顯示,原生流式、端到端和級聯設計之間存在不同的錯誤特徵。VERA為將思考與說話分離的架構提供了一個可重複的測試平台和針對性診斷,為衡量實現既流暢又可靠推理的即時語音助手的進展提供了一種原則性的方法。
開發能夠有效與圖形用戶界面(GUI)互動的自動化代理,尤其是針對小型設備端模型,仍然是一個具有挑戰性的開放性問題。本文中,我們介紹了Ferret-UI Lite,這是一款緊湊的端到端GUI代理,能夠跨多種平台運行,包括移動設備、網頁和桌面。通過採用專為開發小型模型優化的技術,我們構建了3B參數的Ferret-UI Lite代理,其方法包括從真實與合成來源中精心策劃多樣化的GUI數據集,通過思維鏈推理和視覺工具使用來增強推理時的性能,以及利用設計的獎勵進行強化學習。Ferret-UI Lite在與其他小型GUI代理的比較中展現了競爭力。在GUI定位任務中,Ferret-UI Lite在ScreenSpot-V2、ScreenSpot-Pro和OSWorld-G基準測試上分別取得了91.6%、53.3%和61.2%的成績。而在GUI導航方面,Ferret-UI Lite在AndroidWorld和OSWorld上的成功率分別達到了28.0%和19.8%。我們分享了開發緊湊型設備端GUI代理的方法與經驗教訓。
大型語言模型(LLM)提供商常以最大上下文窗口尺寸作為宣傳亮點。為驗證上下文窗口在實際應用中的效能,我們:1)定義了最大有效上下文窗口的概念;2)制定了一套測試方法,用於評估不同尺寸及問題類型下上下文窗口的有效性;3)建立了一個標準化方式,以比較模型在逐漸增大上下文窗口尺寸時的效能,直至找出失效點。我們收集了數十萬個數據點,涵蓋多個模型,發現報告中的最大上下文窗口(MCW)尺寸與最大有效上下文窗口(MECW)尺寸之間存在顯著差異。研究結果表明,MECW不僅與MCW大相徑庭,還會根據問題類型而變化。測試組中一些頂尖模型在上下文僅有100個詞元時便出現故障;大多數模型在上下文達到1000個詞元時,準確率已大幅下降。所有模型的有效上下文窗口均遠未達到其宣稱的最大值,差距高達99%。我們的數據揭示了最大有效上下文窗口會根據所處理問題的類型而變化,為如何提升模型準確率及降低模型幻覺率提供了明確且可操作的洞見。
大型語言模型(LLMs)採用多輪互動作為完成複雜任務的基本範式。然而,在長時間的互動中,其性能往往會下降,因為它們通常是在靜態、單輪數據上進行訓練的,這阻礙了它們適應實時用戶反饋的能力。為了解決這一限制,我們首先提出了一種新範式:多輪互動的測試時策略適應(T2PAM),該範式利用正在進行的互動中的用戶反饋作為獎勵信號,以估計與用戶偏好一致的潛在最優策略,然後更新一小部分參數,引導模型朝向這一策略,最終實現高效的對話中自我校正。接著,我們介紹了基於理論最優策略的一步適應算法(ROSA),這是一種輕量級算法,能夠實現T2PAM。ROSA在單次高效的更新步驟中引導模型參數朝向理論最優策略,避免了代價高昂的基於梯度的迭代優化,並最小化了計算開銷。我們提供了嚴謹的理論分析,保證隨著互動次數的增加,ROSA的策略會收斂到用戶的偏好。在具有挑戰性的基準測試上進行的廣泛實驗表明,ROSA在任務有效性和效率方面均取得了顯著的提升。
jina-reranker-v3 是一款擁有 0.6B 參數的多語言文件重排序模型,它引入了一種新穎的「最後但非遲延交互」機制。與 ColBERT 等遲延交互模型不同,後者先進行獨立編碼再進行多向量匹配,我們的方法則是在同一上下文窗口內對查詢和文件進行因果自注意力運算,從而能在從每個文件的最後一個標記提取上下文嵌入之前,實現豐富的跨文件交互。這種緊湊的架構在 BEIR 基準測試中達到了 61.94 nDCG@10 的頂尖性能,同時體積僅為生成式列表重排序模型的十分之一。
大型語言模型在強化學習(RL)方面表現卓越,但充分釋放這一潛力需要一個中期訓練階段。一個有效的中期訓練階段應識別出一組精簡且有用的動作,並通過在線強化學習實現快速選擇。我們通過提出首個關於中期訓練如何塑造後期訓練的理論結果來形式化這一直覺:它描述了一個動作子空間,該子空間最小化了剪枝帶來的價值近似誤差以及後續規劃中的強化學習誤差。我們的分析揭示了中期訓練有效性的兩個關鍵決定因素:剪枝效率,它塑造了初始強化學習策略的先驗;以及其對強化學習收斂的影響,這決定了該策略通過在線交互能夠改進的程度。這些結果表明,當決策空間緊湊且有效視野較短時,中期訓練最為有效,這凸顯了在動作抽象空間而非原始動作空間中操作的重要性。基於這些見解,我們提出了“推理作為動作抽象”(RA3),一種可擴展的中期訓練算法。具體而言,我們推導出一個序列變分下界,並通過強化學習迭代發現時間上一致的潛在結構來優化它,隨後在引導數據上進行微調。在代碼生成任務上的實驗證明了我們方法的有效性。在多個基礎模型上,RA3在HumanEval和MBPP上的平均性能分別比基礎模型和下一個詞預測基線提高了8分和4分。此外,RA3在HumanEval+、MBPP+、LiveCodeBench和Codeforces上的RLVR中實現了更快的收斂速度和更高的漸近性能。
KV緩存壓縮技術承諾在性能損失可忽略的情況下提升吞吐量和效率。雖然吞吐量的提升毋庸置疑,且近期文獻確實顯示在特定基準測試中性能下降極小,但在多指令提示等現實場景中,壓縮的影響尚未得到充分研究。本文中,我們指出了實踐者在部署KV緩存壓縮的大型語言模型(LLM)時應注意的幾個陷阱。重要的是,我們發現某些指令在壓縮下性能下降得更快,實際上導致LLM完全忽略這些指令。作為一個實際案例,我們以系統提示洩漏為例,通過實驗展示了壓縮對洩漏及一般指令遵循的影響。我們揭示了影響提示洩漏的幾個因素:壓縮方法、指令順序以及KV淘汰偏見。隨後,我們提出了對KV緩存淘汰策略的簡單改進,這些改進可以減輕這些因素的影響,並提升多指令任務的整體性能。
現有的搜尋技術僅限於標準的RAG查詢-文件應用。本文提出了一種新穎的技術,擴展了程式碼與索引以預測所需的API,直接實現高品質、端到端的程式碼生成,適用於自動補全與代理式AI應用。我們針對當前程式碼到程式碼基準數據集中存在的API洩漏問題,引入了一個基於真實世界ServiceNow Script Includes的新數據集,該數據集捕捉了程式碼中API使用意圖不明確的挑戰。我們的評估指標顯示,該方法達到了87.86%的Top-40檢索準確率,確保了下游程式碼生成成功所需的關鍵API上下文。為了實現即時預測,我們開發了一個全面的後訓練管道,通過合成數據集生成、監督微調和強化學習來優化一個緊湊的0.6B重排序模型。這一方法使我們的緊湊重排序模型在保持2.5倍降低的延遲的同時,超越了更大的8B模型,有效解決了企業特定程式碼的細微差別,而無需承擔更大模型的計算開銷。
大型語言模型(LLMs)作為支持知識密集型應用(如問答和事實核查)的神經知識庫,已受到越來越多的研究關注。然而,其知識的結構化組織仍未被深入探討。受認知神經科學發現(如語義聚類和啟動效應,即知曉一個事實會增加回憶相關事實的可能性)的啟發,我們研究了LLMs中類似的知識同質性模式。為此,我們通過在三元組和實體層面進行知識檢查,將LLM的知識映射為圖表示。隨後,我們分析了實體與其鄰居之間的知識性關係,發現LLMs往往對圖中位置相近的實體具有相似的知識水平。基於這一同質性原則,我們提出了一種圖神經網絡(GNN)回歸模型,利用鄰域分數來估計三元組的實體級知識性分數。預測的知識性使我們能夠優先檢查較不為人知的三元組,從而在相同的標註預算下最大化知識覆蓋率。這不僅提高了主動標註以將知識注入LLMs的微調效率,還增強了推理密集型問答中的多跳路徑檢索。
現有的線上強化學習(RL)算法,如GRPO,在大型語言模型(LLM)推理中存在一個關鍵限制:它們無法從模型認為「無解」的問題中學習。換句話說,這些算法只能在模型能夠探索出正確答案的問題上提升表現。因此,即使模型在解決較簡單、可解問題的可能性有所增加,其「上限」在RL訓練後仍保持不變。這些難題樣本無法貢獻於訓練,因為沒有任何rollout能產生獎勵,從而無法生成梯度。為了實現從這些難題樣本中學習,我們提出了NuRL,一種「微調」方法,旨在利用自我生成的提示(即幫助降低問題難度的抽象線索)來推動LLM推理的上限。給定一個問題及其標準答案,模型生成一個思維鏈(CoT),然後產生一個包含解決問題所需核心知識的提示。在訓練過程中,我們從基礎策略生成G個rollout,並使用通過率來決定是否應注入提示。對於通過率為0%的難題樣本,我們注入提示並重新生成一批軌跡。這帶來兩個好處:(1)提示提高了通過率(從0%到非零),從而為之前無解的樣本引入了訓練信號;(2)提示是自我生成的,避免了分佈偏移,且不依賴外部模型。NuRL在6個基準測試和3個模型上實現了一致的改進,同時與測試時的擴展保持互補。值得注意的是,NuRL能夠提升模型的上限,而GRPO則使pass@1024與基礎模型相比保持不變。此外,我們系統地研究了什麼是有效的提示以及提示在何時最有用。有趣的是,最佳的提示是抽象且高層次的,並且在必要時及GRPO收斂後應用時最為有益。
基於擴散的大型語言模型(dLLMs)儘管表現出色,但在推理效率方面仍存在不足。這是因為dLLMs依賴於雙向注意力機制,無法像自回歸模型(ARMs)那樣直接受益於標準的鍵值(KV)緩存。為解決這一問題,我們引入了雙重自適應緩存(d^2Cache),這是一個無需訓練的近似KV緩存框架,旨在加速dLLM的推理過程。d^2Cache採用了一種兩階段的細粒度選擇策略,在每個解碼步驟中識別並自適應更新特定詞元的KV狀態,同時緩存其餘詞元的KV狀態以供重用。此外,d^2Cache自然地提供了一種更可靠的解碼替代方案,能夠實現準左至右的生成,並緩解序列末尾詞元過早過度自信的問題。在兩個代表性dLLM(即LLaDA和Dream)上的大量實驗結果表明,d^2Cache不僅實現了顯著的推理加速,還在生成質量上帶來了持續的改進。代碼已公開於https://github.com/Kamichanw/d2Cache。
近期的實證研究探討了在測試時繼續針對特定任務訓練模型的想法,即所謂的測試時訓練(TTT),並發現這種方法能帶來顯著的性能提升。然而,對於TTT為何以及何時有效,目前的理解仍有限。早期的解釋主要集中於觀察到TTT在應用於分佈外適應或使用特權數據時可能有所幫助。然而,隨著基礎模型規模的擴大,大多數測試數據屬於分佈內,這對這些解釋提出了質疑。我們則認為,基礎模型在全局上仍然處於欠參數化狀態,TTT提供了一種在泛化後進行專門化的機制,將模型能力集中於與測試任務相關的概念上。具體而言,在線性表示假設下,我們提出了一個模型,其中TTT實現了比全局訓練更小的分佈內測試誤差。我們通過在ImageNet上訓練稀疏自編碼器來實證驗證我們模型的關鍵假設,顯示語義相關的數據點僅由少數共享概念解釋。最後,我們在圖像和語言任務上進行了規模化研究,確認了我們模型的實際意義,並識別了專門化最有效的場景。
基於Transformer的模型在時間序列預測領域取得了顯著進展,其中基於片段(patch)的輸入策略提供了效率並改善了長時程建模。然而,現有方法依賴於時間無關的片段構建,即任意起始位置和固定長度會因跨越邊界分割自然過渡而破壞時間連貫性。這種簡單的分割方式常常擾亂短期依賴關係,削弱表示學習的效果。為此,我們提出了EntroPE(基於熵的動態片段編碼器),這是一種新穎的、具備時間感知的框架,它通過條件熵動態檢測過渡點並動態放置片段邊界。這樣既保留了時間結構,又保持了片段化的計算優勢。EntroPE包含兩個關鍵模塊:一是基於熵的動態片段器(EDP),它應用信息論標準來定位自然時間轉變並確定片段邊界;二是自適應片段編碼器(APE),它利用池化和交叉注意力來捕捉片段內依賴關係並生成固定大小的潛在表示。這些嵌入隨後由全局Transformer處理,以建模片段間的動態關係。在長期預測基準測試中的實驗表明,EntroPE在準確性和效率上均有提升,確立了基於熵的動態片段化作為時間序列建模的一種有前景的新範式。代碼可於以下網址獲取:https://github.com/Sachithx/EntroPE。
多模態大型語言模型(MLLMs)需要高分辨率的視覺信息來執行細粒度感知,然而處理整個高分辨率圖像在計算上是不可行的。雖然最近的方法利用感興趣區域(RoI)機制來聚焦於顯著區域,但它們通常面臨一個艱難的權衡:基於訓練的方法依賴於大規模的註釋數據集,而利用模型內部注意力的無訓練方法則計算效率低下且準確性較低,需要多遍預填充階段或依賴於緩慢的自迴歸解碼過程。在本文中,我們提出了一種高效、無需註釋的自蒸餾區域建議網絡(SD-RPN),以解決這一權衡。SD-RPN圍繞一個管道構建,該管道通過顯式去噪和解決歧義,將MLLM中間層的噪聲注意力圖轉化為高質量的偽RoI標籤。我們使用這些標籤來訓練一個輕量級的區域建議網絡(RPN),該網絡學習更精確的定位。這個RPN也非常高效,利用MLLM中間層的特徵在單次前向傳播中預測RoI,將RoI識別與自迴歸生成解耦,避免了昂貴的多遍操作。為了驗證我們的方法,我們將該框架集成到LLaVA-1.5架構中。儘管僅在少量(例如10K)問答對上進行訓練,我們的方法展示了卓越的數據效率和泛化能力,在未見的基準測試(包括TextVQA、DocVQA和V-Star)上實現了超過10%的絕對準確率提升。我們的工作為增強MLLMs的細粒度感知提供了一種實用且可擴展的解決方案,而無需昂貴的監督或全模型微調。代碼可在https://github.com/YuHengsss/SD-RPN獲取。
大型音頻語言模型正迅速發展,然而大多數評估仍側重於語音或全球通用的聲音,忽略了文化獨特的線索。這一差距引發了一個關鍵問題:當前模型能否推廣到本地化、非語義的音頻,這些音頻社區成員能立即識別,而外部人員卻無法理解?為解決此問題,我們提出了TAU(台灣音頻理解),這是一個基於台灣日常「聲音標誌」的基準測試。TAU通過結合精選來源、人工編輯及大語言模型輔助的問題生成流程構建,產生了702段音頻片段和1,794道無法僅憑轉錄文本解決的多選題。實驗表明,包括Gemini 2.5和Qwen2-Audio在內的頂尖音頻語言模型表現遠遜於本地人類。TAU證明了本地化基準測試的必要性,以揭示文化盲點,引導更公平的多模態評估,並確保模型服務於全球主流之外的社區。
现代人工智能技术奠基于深度人工神经网络(NNs)。截至2025年,21世纪被引用次数最多的科学论文,便是一篇关于采用残差连接的深度残差学习的神经网络研究。那么,这一创新究竟出自谁手?本文将梳理深度残差学习发展的时间脉络。
自動編譯開源軟體(OSS)專案是一項至關重要、勞動密集且複雜的任務,這使其成為大型語言模型(LLM)代理的一個良好挑戰。現有方法依賴於手動策劃的規則和工作流程,無法適應需要自定義配置或環境設置的OSS。近期使用大型語言模型(LLMs)的嘗試僅對一部分高評分OSS進行選擇性評估,這種做法低估了OSS編譯的實際挑戰。實際上,編譯指令常常缺失,依賴項未記錄,成功的構建甚至可能需要修補源文件或修改構建腳本。我們提出了一個更具挑戰性和現實性的基準測試,BUILD-BENCH,包含在質量、規模和特性上更加多樣化的OSS。此外,我們提出了一個基於LLM的強基線代理,OSS-BUILD-AGENT,這是一個有效的系統,具有增強的構建指令檢索模塊,在BUILD-BENCH上達到了最先進的性能,並能適應異質的OSS特性。我們還提供了關於不同編譯方法設計選擇及其對整個任務影響的詳細分析,為未來的進展提供了指導。我們相信,在BUILD-BENCH上的性能能夠真實反映代理處理編譯這一複雜軟體工程任務的能力,因此,我們的基準測試將激發創新,對軟體開發和軟體安全領域的下游應用產生重大影響。
擴散模型為概率天氣預報提供了一個基於物理的框架,但其在推斷過程中通常依賴於緩慢的迭代求解器,這使得它們在次季節至季節(S2S)應用中顯得不太實用,因為這些應用需要長時間的預報領先期和基於領域的校準。為解決這一問題,我們引入了Swift,這是一種單步一致性模型,首次實現了以連續排名概率得分(CRPS)為目標的概率流模型的自回歸微調。這消除了對多模型集成或參數擾動的需求。結果顯示,Swift能夠生成具有技巧性的6小時預報,並在長達75天的時間內保持穩定,其運行速度比最先進的擴散基準模型快39倍,同時達到了與基於數值運算的業務化IFS ENS相媲美的預報技巧。這標誌著從中期到季節尺度上,向高效可靠的集成預報邁進了一步。
設計師在圖層表示中製作和編輯圖形設計,但一旦合成為點陣圖像,基於圖層的編輯就變得不可能。在本研究中,我們提出了LayerD,一種將點陣圖形設計分解為圖層的方法,以實現可重新編輯的創意工作流程。LayerD通過迭代提取未被遮擋的前景圖層來解決分解任務。我們提出了一種簡單而有效的精煉方法,利用圖形設計中圖層通常呈現均勻外觀的假設。由於分解問題本身是不適定的,且真實圖層結構可能不可靠,我們開發了一種質量指標來應對這一難題。在實驗中,我們展示了LayerD成功實現了高質量的分解,並超越了基線方法。我們還展示了LayerD與最先進的圖像生成器和基於圖層的編輯的結合應用。
基於擴散模型的對抗淨化已成為一種頗具前景的防禦策略,但現有方法通常依賴於均勻噪聲注入,這種方式不加區分地擾動所有頻率,破壞了語義結構並削弱了魯棒性。我們的實證研究表明,對抗擾動並非均勻分佈:它們主要集中於高頻區域,且在不同頻率和攻擊類型間呈現出異質的幅值強度模式。基於這一觀察,我們提出了MANI-Pure,這是一種幅值自適應的淨化框架,它利用輸入的幅值頻譜來指導淨化過程。與注入同質噪聲不同,MANI-Pure自適應地應用異質的、針對特定頻率的噪聲,有效抑制了脆弱的高頻低幅值頻帶中的對抗擾動,同時保留了語義關鍵的低頻內容。在CIFAR-10和ImageNet-1K上的大量實驗驗證了MANI-Pure的有效性。它將乾淨準確率與原始分類器的差距縮小至0.59以內,同時將魯棒準確率提升了2.15,並在RobustBench排行榜上取得了頂級魯棒準確率,超越了之前的最先進方法。
现有的多模态音频生成模型往往缺乏精确的用户控制,这限制了其在专业拟音工作流程中的适用性。特别是,这些模型侧重于整个视频,并未提供针对场景中特定对象进行优先处理的精确方法,导致生成不必要的背景声音或聚焦于错误的对象。为解决这一不足,我们引入了视频对象分割感知音频生成这一新颖任务,该任务明确地将声音合成条件建立在对象级分割图上。我们提出了SAGANet,一种新的多模态生成模型,通过利用视觉分割掩码以及视频和文本线索,实现了可控的音频生成。我们的模型为用户提供了细粒度且视觉定位的音频生成控制。为支持此任务及进一步研究分割感知拟音,我们提出了Segmented Music Solos,一个包含分割信息的乐器演奏视频基准数据集。我们的方法相较于当前最先进技术展现了显著改进,并为可控、高保真拟音合成设立了新标准。代码、样本及Segmented Music Solos可在https://saganet.notion.site获取。
多智能體系統(MAS)在處理複雜現實世界任務方面的能力日益增強,然而其依賴於智能體間的協調、工具使用以及長時序推理,使得錯誤識別變得尤為困難。細微的錯誤可能在智能體間傳播,最終導致任務失敗,同時產生冗長且交織的執行軌跡,這對人類開發者和自動化系統的調試與分析都帶來了顯著的成本。我們的核心洞察是,儘管失敗軌跡(如日誌)在表面上看來各不相同,但MAS錯誤往往以相似的結構模式重現。本文提出了CORRECT,這是首個輕量級、無需訓練的框架,它利用在線緩存的精煉錯誤模式來識別並將失敗結構的知識遷移到新的請求中。這種基於緩存的重用使得大型語言模型(LLMs)能在推理時進行針對性的錯誤定位,避免了昂貴的重新訓練,同時在亞秒級時間內適應動態的MAS部署。為了支持這一領域的嚴謹研究,我們還引入了CORRECT-Error,這是一個包含超過2000條註釋軌跡的大規模數據集,這些軌跡通過一個基於真實世界分佈的新穎錯誤注入管道收集,並通過人類評估進一步驗證,以確保與自然失敗模式的一致性。在七個不同MAS應用中的實驗表明,CORRECT在步驟級錯誤定位上相比現有技術提升了高達19.8%,且幾乎不增加額外開銷,顯著縮小了自動化與人類級錯誤識別之間的差距。
時間序列基礎模型(TSFMs)通過大規模預訓練提供了強大的零樣本預測能力,然而在公開數據有限的領域中,微調對於提升性能仍然至關重要。隨著TSFMs數量的增加,高效識別最適合下游微調的模型變得愈發具有挑戰性。在本研究中,我們提出了TimeTic,這是一個將模型選擇重新定義為上下文學習問題的可遷移性估計框架:基於已知(源)數據集的觀察,它預測TSFM在下游(目標)數據集上微調後的表現。TimeTic靈活地將觀察到的模型-數據關係組織為上下文信息,使其能夠無縫適應各種測試場景。利用數據集元特徵、模型特性和微調性能形成的自然表格結構,我們採用表格基礎模型作為上下文學習器。我們進一步引入了一種基於模型層間熵演化的新穎模型表徵方法,捕捉嵌入空間的差異,使TimeTic能夠泛化到任意模型集。我們建立了一個全面的可遷移性估計基準,包括10個數據集、10個基礎模型和3種預測任務。在此基準上,TimeTic的估計與實際微調性能在未見數據集上展現出高度一致性,平均秩相關性約為0.6,相比使用零樣本性能作為可遷移性評分,提升了30%。
我們介紹了卷積集合變換器(Convolutional Set Transformer, CST),這是一種新穎的神經網絡架構,旨在處理視覺上異質但共享高層次語義(如共同類別、場景或概念)的任意基數圖像集合。現有的集合輸入網絡,例如深度集合(Deep Sets)和集合變換器(Set Transformer),僅限於向量輸入,無法直接處理三維圖像張量。因此,它們必須與特徵提取器(通常是卷積神經網絡,CNN)級聯,將圖像編碼為嵌入,然後集合輸入網絡才能建模圖像間的關係。相比之下,CST直接操作於三維圖像張量,同時進行特徵提取和上下文建模,從而實現了這兩個過程的協同效應。這種設計在集合分類和集合異常檢測等任務中表現出優越的性能,並進一步提供了與CNN可解釋性方法(如Grad-CAM)的天然兼容性,這與其他不透明的競爭方法形成對比。最後,我們展示了CST可以在大規模數據集上進行預訓練,並通過標準的遷移學習方案適應新的領域和任務。為了支持進一步的研究,我們發布了CST-15,這是一個在ImageNet上預訓練的CST骨幹網絡(https://github.com/chinefed/convolutional-set-transformer)。
儘管具備推理能力的大型語言模型(LLMs)在高中數學競賽和編程領域迅速進步,但它們能否有效應對前沿物理研究中複雜且開放式的挑戰?更重要的是,物理學家希望LLMs協助完成哪些類型的推理任務?為解答這些問題,我們提出了CritPt(Complex Research using Integrated Thinking - Physics Test,發音為“臨界點”),這是首個旨在測試LLMs在未發表、研究級推理任務上的基準,廣泛涵蓋現代物理研究領域,包括凝聚態物理、量子物理、原子、分子與光學物理、天體物理、高能物理、數學物理、統計物理、核物理、非線性動力學、流體動力學和生物物理。CritPt由71個綜合研究挑戰組成,旨在模擬入門級的全規模研究項目,並進一步分解為190個更簡單的檢查點任務,以獲得更細緻的洞察。所有問題均由50多位活躍的物理研究人員基於其自身研究全新創建。每個問題都經過精心策劃,確保答案難以猜測且可由機器驗證,並通過針對高級物理特定輸出格式深度定制的自動評分管道進行評估。我們發現,儘管當前最先進的LLMs在孤立的檢查點上展現出初步潛力,但它們仍遠未達到可靠解決完整研究規模挑戰的能力:基礎模型中的最佳平均準確率僅為4.0%,由GPT-5(高)實現,配備編碼工具後適度提升至約10%。通過CritPt提供的現實且標準化的評估,我們強調了當前模型能力與現實物理研究需求之間存在巨大差距,為開發基於科學的AI工具奠定了基礎。
大型語言模型(LLMs)的水印技術在生成過程中嵌入統計信號,以便檢測模型產生的文本。雖然水印在良性環境中已被證明有效,但其在對抗性規避下的穩健性仍存在爭議。為了深入理解和評估此類漏洞,我們提出了偏見反轉重寫攻擊(BIRA),該攻擊具有理論基礎且與模型無關。BIRA通過在基於LLM的重寫過程中抑制可能帶有水印的標記的logits來削弱水印信號,而無需了解底層的水印方案。在最新的水印方法中,BIRA實現了超過99%的規避率,同時保留了原始文本的語義內容。除了展示攻擊之外,我們的結果揭示了一種系統性漏洞,強調了壓力測試和穩健防禦的必要性。
近期,视频生成技术的进步使得基于用户提示的高保真视频合成成为可能。然而,现有模型与基准测试未能充分捕捉专业视频生成的复杂性与需求。为此,我们提出了“稳定电影度量学”(Stable Cinemetrics),一个结构化的评估框架,将电影制作控制正式化为四个解耦且分层的分类体系:场景设置、事件、灯光与摄影。这些分类体系共同定义了76个基于行业实践的细粒度控制节点。利用这些分类体系,我们构建了一个与专业应用场景对齐的提示基准,并开发了一个自动化流程用于提示分类与问题生成,从而实现对每个控制维度的独立评估。我们开展了一项大规模人类研究,涵盖超过10个模型与2万部视频,由80多位电影专业人士进行标注。我们的分析,无论是粗粒度还是细粒度,均揭示出即便当前最强大的模型在事件与摄影相关控制方面仍存在显著差距。为支持可扩展的评估,我们训练了一个自动评估器,这是一个与专家标注对齐的视觉-语言模型,其表现优于现有的零样本基线。SCINE是首个将专业视频生成置于视频生成模型领域中的方法,引入了以电影控制为中心的分类体系,并通过结构化评估流程与详细分析为其提供支持,以指导未来研究。
現有的技能熟練度評估方法通常依賴於黑箱式的視頻分類器,忽視了多視角上下文且缺乏可解釋性。我們提出了ProfVLM,這是一個緊湊的視覺-語言模型,將此任務重新構建為生成式推理:它能夠從第一人稱和第三人稱視頻中聯合預測技能水平並生成專家級的反饋。我們方法的核心是一個注意力門控投影器,它動態融合了從凍結的TimeSformer骨幹網絡投影到專為反饋生成調整的語言模型中的多視角特徵。在EgoExo4D數據集上結合專家評論進行訓練後,ProfVLM超越了現有最先進的方法,同時使用了最多20倍少的參數,並將訓練時間縮短了最多60%。我們的方法不僅在多樣化的活動中實現了更高的準確性,而且輸出了與表現相符的自然語言評析,提供了透明的推理過程。這些結果凸顯了生成式視覺-語言建模作為技能評估的一個強大新方向。
迈向智能图像编辑,目标物体的移除应同时消除该物体及其因果视觉伪影,如阴影与反射。然而,现有基于图像外观的方法要么严格遵循掩码对齐训练,未能去除那些未明确掩码的因果效应;要么采用宽松的掩码对齐策略,缺乏可控性,可能无意中过度擦除其他物体。我们认识到,这些局限源于忽视了物体几何存在与其视觉效应之间的因果关系。为克服这一局限,我们提出了一种几何感知的两阶段框架,将物体移除解耦为(1)几何移除与(2)外观渲染。在第一阶段,我们利用严格掩码对齐的监督直接从几何(如深度)中移除物体,实现具有强几何约束的结构感知编辑。在第二阶段,我们基于更新后的几何条件渲染出逼真的RGB图像,其中因果视觉效应作为修改后三维几何的隐含结果被考虑。为引导几何移除阶段的学习,我们引入了一种基于正负样本对的偏好驱动目标,鼓励模型在移除物体及其因果视觉伪影的同时,避免新的结构插入。大量实验表明,我们的方法在两个流行基准测试中,在移除物体及其相关伪影方面达到了最先进的性能。代码可在https://github.com/buxiangzhiren/GeoRemover获取。