每日精選AI研究論文及翻譯
儘管大型語言模型(LLMs)展現了卓越的能力,但在動態且複雜的環境中,它們仍難以有效利用歷史互動資訊。記憶系統通過引入持久性的資訊存儲、檢索與利用機制,使LLMs能夠超越無狀態的互動。然而,現有的記憶系統往往帶來顯著的時間與計算開銷。為此,我們提出了一種名為LightMem的新型記憶系統,它在記憶系統的性能與效率之間取得了平衡。受Atkinson-Shiffrin人類記憶模型的啟發,LightMem將記憶組織為三個互補的階段。首先,受認知啟發的感覺記憶通過輕量級壓縮快速過濾不相關資訊,並根據主題對資訊進行分組。接著,主題感知的短期記憶鞏固這些基於主題的群組,組織並總結內容以實現更結構化的存取。最後,帶有睡眠時間更新的長期記憶採用了一種離線程序,將鞏固過程與線上推理解耦。在LongMemEval上使用GPT和Qwen骨幹進行的實驗表明,LightMem在準確性上(最高提升10.9%)超越了強基線,同時將token使用量減少最多117倍,API調用減少最多159倍,運行時間縮短超過12倍。程式碼已公開於https://github.com/zjunlp/LightMem。
我們提出了核心注意力分解(CAD)技術,這是一種通過將核心注意力計算——即softmax(QK^T)V——從模型的其他部分解耦並在單獨的設備池上執行,從而提升長上下文大語言模型訓練效率的方法。在現有系統中,核心注意力與其他層共同部署;在長上下文長度下,其計算量的二次方增長相較於其他組件的近線性增長,導致數據和流水線並行組之間出現負載不均和拖尾現象。CAD的實現基於兩點觀察:首先,核心注意力是無狀態的,它沒有可訓練參數且僅包含極少的瞬態數據,因此負載均衡簡化為對計算密集型任務的調度;其次,它是可組合的,現代注意力內核在處理任意長度的融合批次token級分片時仍能保持高效。CAD將核心注意力劃分為token級任務,並將其分派至專用的注意力服務器,這些服務器動態地重新批處理任務以均衡計算量,同時不犧牲內核效率。我們在名為DistCA的系統中實現了CAD,該系統採用乒乓執行方案,完全重疊通信與計算,並在注意力服務器上進行原地執行以減少內存使用。在512個H200 GPU和上下文長度達512k token的條件下,DistCA將端到端訓練吞吐量提升了最高1.35倍,消除了數據和流水線並行中的拖尾現象,並實現了近乎完美的計算與內存平衡。
生成式世界模型(WMs)如今已能模擬出具有驚人視覺真實感的世界,這自然引發了一個問題:它們能否賦予具身代理預測性感知能力以輔助決策?這一問題的進展一直受限於零散的評估:現有的大多數基準測試採用開環協議,孤立地強調視覺質量,而未能解決具身效用的核心問題,即世界模型是否真的能幫助代理成功完成具身任務?為填補這一空白,我們引入了World-in-World,這是首個在閉環世界中對世界模型進行基準測試的開放平台,該世界模擬了真實的代理-環境交互。World-in-World提供了一個統一的在線規劃策略和標準化的行動API,使異構的世界模型能夠用於決策。我們精心設計了四個閉環環境,嚴格評估多樣化的世界模型,將任務成功率作為首要指標,並超越了對視覺質量的普遍關注;我們還首次提出了具身場景下世界模型的數據規模定律。我們的研究揭示了三個令人驚訝的發現:(1)僅視覺質量並不能保證任務成功,可控性更為重要;(2)在訓練後使用行動-觀察數據進行擴展,比升級預訓練的視頻生成器更有效;(3)分配更多的推理時間計算資源,能讓世界模型顯著提升閉環性能。
近期在文本到圖像(T2I)生成領域的進展,凸顯了可靠基準在評估生成圖像如何準確反映其文本提示語義方面的重要性。然而,(1) 現有基準缺乏多樣化的提示場景和多語言支持,這兩者對於實際應用至關重要;(2) 它們僅提供主要維度的粗略評估,涵蓋的子維度範圍狹窄,且在細粒度子維度評估上有所不足。為解決這些限制,我們引入了UniGenBench++,一個針對T2I生成的統一語義評估基準。具體而言,它包含600個按層次組織的提示,以確保覆蓋面和效率:(1) 跨越多樣化的現實場景,即5個主要提示主題和20個子主題;(2) 全面探測T2I模型在10個主要和27個子評估標準上的語義一致性,每個提示評估多個測試點。為了嚴格評估模型對語言和提示長度變化的魯棒性,我們提供了每個提示的英文和中文版本,包括短版和長版。利用閉源多模態大語言模型(MLLM),即Gemini-2.5-Pro,其廣泛的世界知識和細粒度圖像理解能力,我們開發了一個有效的管道,用於可靠的基準構建和簡化的模型評估。此外,為了進一步促進社區使用,我們訓練了一個魯棒的評估模型,使得能夠離線評估T2I模型的輸出。通過對開源和閉源T2I模型的全面基準測試,我們系統地揭示了它們在各個方面的優勢和劣勢。
我們推出Ring-1T,這是首個開源、具備萬億級參數的頂尖思維模型。該模型總參數達1萬億,每個token激活約500億參數。在萬億參數規模上訓練此類模型面臨前所未有的挑戰,包括訓練與推理的對齊問題、rollout處理效率低下以及強化學習系統的瓶頸。為解決這些問題,我們開創了三項相互關聯的創新:(1) IcePop通過token級差異掩碼和裁剪穩定強化學習訓練,解決了訓練與推理不匹配帶來的不穩定性;(2) C3PO++在token預算下動態劃分長rollout,從而提高資源利用率,實現高時間效率;(3) ASystem,一個高性能強化學習框架,旨在克服阻礙萬億參數模型訓練的系統瓶頸。Ring-1T在關鍵基準測試中取得了突破性成果:AIME-2025得分93.4,HMMT-2025得分86.72,CodeForces得分2088,ARC-AGI-v1得分55.94。值得注意的是,它在IMO-2025上達到了銀牌級別的成績,彰顯了其卓越的推理能力。通過向社區發布完整的1萬億參數MoE模型,我們為研究界提供了直接接觸尖端推理能力的機會。這一貢獻標誌著大規模推理智能民主化的重要里程碑,並為開源模型性能設立了新的基準。
尽管大型语言模型(LLMs)在推动化学发现方面具有巨大潜力,但当前的LLMs缺乏核心化学知识,产生的推理轨迹不可靠,且在多种化学任务中表现欠佳。为解决这些挑战,我们提出了Chem-R,一种可推广的化学推理模型,旨在模拟化学家的深思熟虑过程。Chem-R通过一个三阶段框架进行训练,逐步构建高级推理能力,包括:1)化学基础训练,建立核心化学知识;2)化学推理协议蒸馏,融入结构化的专家级推理轨迹,以指导系统且可靠的问题解决;3)多任务组相对策略优化,优化模型在多种分子和反应级别任务中的平衡表现。这一结构化流程使Chem-R在综合基准测试中达到最先进的性能,在分子任务上超越领先的大型语言模型(如Gemini-2.5-Pro和DeepSeek-R1)高达46%,在反应任务上高达66%。同时,Chem-R在分子和反应级别任务上均持续优于现有的化学基础模型。这些结果凸显了Chem-R在泛化能力、可解释性以及作为下一代AI驱动化学发现基础的潜力。
基於擴散變換器(DiTs)的長視頻生成,受制於全注意力機制隨序列長度呈二次方增長的瓶頸。由於注意力機制存在高度冗餘性,輸出結果主要由一小部分查詢-鍵值對主導。現有的稀疏方法依賴於分塊粗粒度估計,其精度與效率的權衡受到塊大小的限制。本文提出了一種高效的稀疏注意力機制——混合分組注意力(MoGA),它利用輕量級、可學習的令牌路由器精確匹配令牌,無需進行分塊估計。通過語義感知的路由機制,MoGA實現了有效的長距離交互。作為一種無核方法,MoGA能與現代注意力堆棧(如FlashAttention和序列並行)無縫集成。基於MoGA,我們開發了一種高效的長視頻生成模型,該模型端到端地生成分鐘級、多鏡頭、480p分辨率、24幀每秒的視頻,上下文長度約為580k。在多種視頻生成任務上的全面實驗驗證了我們方法的有效性。
儘管多模態大型語言模型(MLLMs)在整體理解方面表現卓越,但在捕捉複雜場景的密集世界時卻顯得力不從心,這需要對精細細節和物體間關係進行細粒度分析。區域級別的MLLMs已邁出了有希望的一步。然而,以往的嘗試通常僅優化於孤立理解給定區域,忽略了關鍵的全局上下文。為解決此問題,我們引入了「掌握任意區域」(GAR)以實現全面的區域級視覺理解。借助有效的RoI對齊特徵重播技術,GAR支持:(1) 通過利用必要的全局上下文實現精確感知,以及(2) 建模多個提示之間的交互。由此,它自然實現了(3) 高級組合推理,以回答關於任何區域的特定自由形式問題,將範式從被動描述轉向主動對話。此外,我們構建了GAR-Bench,不僅提供了對單一區域理解的更準確評估,更重要的是,衡量了跨多個區域的交互和複雜推理。大量實驗表明,GAR-1B不僅保持了最先進的標題生成能力,例如在DLC-Bench上超越DAM-3B +4.5,而且在建模多個提示之間的關係方面表現出色,具備高級理解能力,甚至在GAR-Bench-VQA上超越了InternVL3-78B。更重要的是,我們的零樣本GAR-8B在VideoRefer-BenchQ上甚至超越了領域內VideoRefer-7B,表明其強大能力可輕鬆遷移至視頻領域。
我們提出DeepSeek-OCR作為一項初步研究,探討通過光學二維映射壓縮長文本的可行性。DeepSeek-OCR由兩個組件構成:DeepEncoder作為編碼器,DeepSeek3B-MoE-A570M作為解碼器。具體而言,DeepEncoder作為核心引擎,旨在高分辨率輸入下保持低激活度,同時實現高壓縮比,以確保視覺標記數量處於最佳且可管理的範圍。實驗表明,當文本標記數量在視覺標記數量的10倍以內(即壓縮比<10倍)時,模型能夠達到97%的解碼(OCR)精度。即使在20倍的壓縮比下,OCR準確率仍維持在約60%。這顯示出在歷史長文本壓縮及大語言模型(LLMs)記憶遺忘機制等研究領域具有相當大的潛力。此外,DeepSeek-OCR還展現出高度的實用價值。在OmniDocBench上,它僅使用100個視覺標記便超越了GOT-OCR2.0(每頁256個標記),並在平均每頁使用少於800個視覺標記的情況下,表現優於MinerU2.0(平均每頁6000+個標記)。在實際生產中,DeepSeek-OCR能夠以單張A100-40G顯卡每日生成超過20萬頁的訓練數據,用於大語言模型/視覺語言模型(LLMs/VLMs)。代碼及模型權重已公開於http://github.com/deepseek-ai/DeepSeek-OCR。
儘管多模態大型語言模型(MLLMs)在視頻字幕生成方面展現出卓越能力,但實際應用場景往往要求字幕能遵循特定用戶指令,而非生成無約束的詳盡描述。然而,現有基準主要評估描述的全面性,很大程度上忽視了指令遵循能力。為填補這一空白,我們引入了IF-VidCap,一個用於評估可控視頻字幕生成的新基準,包含1,400個高質量樣本。與現有的視頻字幕或通用指令遵循基準不同,IF-VidCap採用了一個系統性框架,從格式正確性和內容正確性兩個維度評估字幕。我們對超過20個知名模型的全面評估揭示了一個細微的格局:儘管專有模型仍占主導地位,但性能差距正在縮小,頂級開源解決方案現已接近同等水平。此外,我們發現專注於密集字幕生成的模型在處理複雜指令時表現不如通用MLLMs,這表明未來工作應同時推進描述的豐富性和指令遵循的精確性。
儘管擴散模型在生成質量上達到了頂尖水平,但其採樣過程仍面臨計算成本高昂的問題。近期研究通過基於梯度的優化方法來解決這一難題,這些方法從完整的採樣過程中提煉出少步的常微分方程(ODE)擴散求解器,從而將函數評估次數從數十次大幅減少至僅幾次。然而,這些方法往往依賴於複雜的訓練技巧,且並未明確專注於保留細粒度細節。本文提出了一種廣義求解器:它是一種無需額外訓練技巧的ODE採樣器參數化方案,並在質量上超越了現有方法。我們進一步將原始蒸餾損失與對抗訓練相結合,有效減少了偽影並提升了細節保真度。我們將這一成果命名為廣義對抗求解器,並在相似的資源限制條件下,展示了其相較於現有求解器訓練方法的優越性能。相關代碼已公開於https://github.com/3145tttt/GAS。
忠實地個性化大型語言模型(LLMs)以符合個別用戶偏好,是一項關鍵但具挑戰性的任務。雖然監督式微調(SFT)能迅速達到性能瓶頸,但標準的基於人類反饋的強化學習(RLHF)也難以應對個性化的細微差異。基於標量的獎勵模型容易出現獎勵欺騙,導致冗長且表面化的個性化回應。為解決這些限制,我們提出了「批判後編輯」(Critique-Post-Edit),這是一個強大的強化學習框架,能夠實現更忠實且可控的個性化。我們的框架整合了兩個關鍵組件:(1) 一個個性化生成獎勵模型(GRM),它提供多維度評分和文本批判,以抵抗獎勵欺騙;(2) 一個批判後編輯機制,其中策略模型根據這些批判來修訂其輸出,以實現更精準且高效的學習。在嚴格的長度控制評估下,我們的方法在個性化基準上大幅超越了標準的PPO。個性化的Qwen2.5-7B模型平均提升了11%的勝率,而個性化的Qwen2.5-14B模型則超越了GPT-4.1的性能。這些結果展示了一條通往忠實、高效且可控個性化的實用路徑。
尽管视觉-语言模型(VLMs)的最新进展在多种多模态任务中取得了显著进步,但从有限视角理解三维空间关系仍是一个重大挑战。以往推理方法通常依赖于纯文本(如拓扑认知地图)或二维视觉线索。然而,其有限的表征能力在需要三维空间想象的具体任务中表现受限。为解决这一局限,我们提出了3DThinker框架,该框架能有效利用图像中蕴含的丰富几何信息进行推理,如同人类所做。我们的框架首次实现了在推理过程中无需任何三维先验输入即可进行三维心智模拟,且不依赖显式标注的三维数据进行训练。具体而言,我们的训练分为两个阶段。首先,我们进行监督训练,使VLM在推理时生成的三维潜在表示与三维基础模型(如VGGT)对齐。随后,我们仅基于结果信号优化整个推理轨迹,从而精炼潜在的三维心智模拟。跨多个基准的广泛实验表明,3DThinker始终优于强基线,并为将三维表征统一到多模态推理中提供了新视角。我们的代码将发布于https://github.com/zhangquanchen/3DThinker。
多語言水印技術旨在使大型語言模型(LLM)的輸出在不同語言間可追溯,然而現有方法仍存在不足。儘管聲稱具有跨語言魯棒性,這些方法僅在高資源語言上進行了評估。我們發現,現有的多語言水印方法並非真正多語言:它們在中低資源語言下的翻譯攻擊中無法保持魯棒性。我們將這一失敗歸因於語義聚類,當分詞器詞彙表中對某一語言的完整詞彙過少時,該方法便會失效。為解決此問題,我們引入了STEAM,這是一種基於反向翻譯的檢測方法,能夠恢復因翻譯而損失的水印強度。STEAM與任何水印方法兼容,在不同分詞器和語言間均表現魯棒,非侵入性強,且易於擴展至新語言。在17種語言上,STEAM平均提升了+0.19的AUC值和+40%的TPR@1%,為實現更公平的多語言水印提供了一條簡單而穩健的路徑。
近期多模态大型語言模型(MLLMs)的發展,顯著提升了人工智慧理解視覺模態的能力。然而,現有的評估基準仍局限於單輪問答,忽略了現實場景中多輪對話的複雜性。為彌補這一差距,我們引入了MT-Video-Bench,這是一個全面的視頻理解基準,用於評估MLLMs在多輪對話中的表現。具體而言,我們的MT-Video-Bench主要評估六項核心能力,這些能力聚焦於感知性和互動性,涵蓋了來自多個領域的987個精心策劃的多輪對話。這些能力嚴格對齊現實世界的應用,例如互動式體育分析和基於視頻的多輪智能輔導。通過MT-Video-Bench,我們廣泛評估了各種最先進的開源和閉源MLLMs,揭示了它們在處理多輪視頻對話時的顯著性能差異和局限性。該基準將公開提供,以促進未來的研究。
近期視頻生成技術的進步,使得製作視覺效果引人入勝的視頻成為可能,這在內容創作、娛樂和虛擬現實等領域具有廣泛應用。然而,由於注意力機制在輸出寬度和高度上的二次計算複雜性,大多數現有的基於擴散變換器的視頻生成模型僅限於低分辨率輸出(<=720P)。這一計算瓶頸使得原生高分辨率視頻生成(1080P/2K/4K)在訓練和推理階段都變得不可行。為了解決這一挑戰,我們提出了UltraGen,這是一種新穎的視頻生成框架,能夠實現i)高效且ii)端到端的原生高分辨率視頻合成。具體而言,UltraGen採用了基於全局-局部注意力分解的層次化雙分支注意力架構,將全注意力解耦為一個局部注意力分支以實現高保真區域內容,以及一個全局注意力分支以確保整體語義一致性。我們進一步提出了一種空間壓縮的全局建模策略,以高效學習全局依賴關係,並提出了一種層次化跨窗口局部注意力機制,以在增強不同局部窗口間信息流動的同時降低計算成本。大量實驗表明,UltraGen首次能夠有效地將預訓練的低分辨率視頻模型擴展至1080P甚至4K分辨率,在質量和定量評估上均優於現有的最先進方法和基於超分辨率的兩階段流程。
數據質量在提升大型語言模型(LLMs)的監督微調(SFT)中扮演著至關重要的角色,而基於詞元層級的數據選擇因其細粒度特性已成為一個頗具前景的研究方向。儘管現有的詞元級選擇方法在實證表現上頗為強勁,但它們普遍存在兩個主要限制:(1)需要訓練或依賴於一個額外的參考模型,(2)僅依賴於損失信息進行詞元選擇,這無法很好地保留那些不被基於損失的指標所青睞但語義上重要的詞元。為應對這些挑戰,我們提出了ssToken,一種自我調節且語義感知的詞元選擇方法。ssToken利用易於獲取的歷史模型來計算當前模型與之相比的每個詞元損失差異,作為一種自我調節信號,使模型能夠沿其優化軌跡自適應地選擇詞元,而非如先前工作那樣依賴於離線訓練的參考模型所產生的過剩損失。我們進一步引入了一種語義感知的、基於注意力的詞元重要性估計指標,該指標與基於損失的選擇正交,並提供互補的語義信息,以實現更有效的過濾。跨不同模型家族和規模的廣泛實驗表明,自我調節選擇和語義感知選擇各自均優於全數據微調,而它們的整合——ssToken——則實現了協同增益,進一步超越了先前的詞元級選擇方法,在保持訓練效率的同時,帶來了性能的提升。
原始的CLIP文本編碼器受限於最大輸入長度為77個token,這限制了其有效處理長文本及進行細粒度語義理解的能力。此外,CLIP文本編碼器缺乏對多語言輸入的支持。這些限制顯著地縮小了其在更廣泛任務中的適用性。近期研究嘗試以基於大型語言模型(LLM)的嵌入器替換CLIP文本編碼器,以增強其在處理長文本、多語言理解及細粒度語義理解方面的能力。然而,由於LLM的表示空間與CLIP的視覺-語言空間是獨立預訓練的,缺乏對齊先驗,直接使用對比學習進行對齊可能會破壞CLIP圖像編碼器內在的視覺-語言對齊,導致預訓練期間獲得的知識未能充分利用。為解決這一挑戰,我們提出了ProCLIP,一個基於課程學習的漸進式視覺-語言對齊框架,旨在有效對齊CLIP圖像編碼器與基於LLM的嵌入器。具體而言,ProCLIP首先從CLIP的文本編碼器中蒸餾知識至基於LLM的嵌入器,以利用CLIP豐富的預訓練知識,同時在LLM嵌入器與CLIP圖像編碼器之間建立初步對齊。隨後,ProCLIP通過圖像-文本對比微調進一步對齊CLIP圖像編碼器與基於LLM的嵌入器,並採用自蒸餾正則化來避免過擬合。為了實現更有效的對齊,在表示繼承和對比微調過程中,採用了實例語義對齊損失和嵌入結構對齊損失。代碼已公開於https://github.com/VisionXLab/ProCLIP。
近年來,大規模視覺內容生成模型(如圖像、視頻及3D物體/場景)取得了顯著進展。然而,由於跨模態文本-視頻對齊、涉及的長序列以及複雜的時空依賴性,訓練大規模視頻生成模型仍面臨巨大挑戰且資源消耗嚴重。為應對這些挑戰,我們提出了一個訓練框架,該框架優化了四大支柱:(i)數據處理,(ii)模型架構,(iii)訓練策略,以及(iv)大規模視頻生成模型的基礎設施。這些優化在數據預處理、視頻壓縮、參數擴展、基於課程的預訓練及對齊導向的後訓練等所有階段均帶來了顯著的效率提升和性能改進。我們最終的模型MUG-V 10B,在整體上與近期最先進的視頻生成器相當,並在面向電子商務的視頻生成任務中,於人類評估中超越了領先的開源基線。更重要的是,我們開源了完整的技術棧,包括模型權重、基於Megatron-Core的大規模訓練代碼,以及視頻生成與增強推理管道。據我們所知,這是首次公開利用Megatron-Core實現高訓練效率及近線性多節點擴展的大規模視頻生成訓練代碼,詳情請訪問https://github.com/Shopee-MUG/MUG-V{我們的網頁}。
對動態空間關係的推理至關重要,因為觀察者與物體常同時移動。儘管視覺語言模型(VLMs)及視覺專家模型在二維任務與靜態場景中表現卓越,它們對動態三維場景的全面理解能力仍顯不足。我們引入動態空間智能,並提出DSI-Bench,這是一個包含近千個動態視頻及超過1700個手動註釋問題的基準,涵蓋了觀察者與物體的九種解耦運動模式。空間與時間上的對稱設計減少了偏差,使得對模型自我運動與物體運動推理能力的系統評估成為可能。我們對14個VLMs及專家模型的評估揭示了關鍵限制:模型常混淆觀察者與物體的運動,展現出語義偏見,並在動態場景中難以準確推斷相對關係。我們的DSI-Bench為具備動態空間智能的通用及專家模型的未來發展提供了寶貴的發現與洞見。
儘管大型語言模型(LLM)代理在自動化交易中展現出潛力,它們仍面臨關鍵限制。主流的多元代理框架常存在效率低下、產生不一致信號,以及缺乏從市場反饋中學習連貫策略所需的端到端優化等問題。為解決這些問題,我們引入了AlphaQuanter,這是一個單一代理框架,利用強化學習(RL)在一個透明、工具增強的決策流程上學習動態策略,使單一代理能夠自主協調工具並按需主動獲取信息,從而建立一個透明且可審計的推理過程。大量實驗表明,AlphaQuanter在關鍵金融指標上達到了最先進的性能。此外,其可解釋的推理揭示了複雜的策略,為人類交易者提供了新穎且有價值的洞見。我們的數據獲取與代理訓練代碼已公開於:https://github.com/AlphaQuanter/AlphaQuanter。
在本研究中,我們展示了從後訓練模型中提取大量對齊訓練數據的可能性——這些數據可用於引導模型提升特定能力,如長上下文推理、安全性、指令遵循及數學運算。儘管多數相關研究在衡量訓練數據提取的成功率時依賴於字符串匹配,我們主張嵌入模型更適合我們的特定目標。通過高質量嵌入模型測量的距離能夠識別字符串間的語義相似性,而其他度量標準如編輯距離則難以捕捉。事實上,在我們的調查中,近似字符串匹配會嚴重低估(保守估計為10倍)可提取數據的數量,這是由於一些降低度量值的細微人工痕跡所致。有趣的是,我們發現模型容易重現用於後訓練階段(如SFT或RL)的訓練數據。我們證明,這些數據可用於訓練基礎模型,從而恢復相當一部分原始性能。我們認為,這項工作揭示了提取對齊數據時可能被忽視的風險。最後,我們的研究開啟了關於蒸餾實踐下游影響的有趣討論:既然模型似乎會重現其訓練集的某些方面,因此蒸餾可以被視為間接地在模型的原始數據集上進行訓練。
基於大型多模態模型(LMMs)的視頻推理依賴於昂貴的強化學習(RL)和冗長的思維鏈,這在訓練和推理過程中都帶來了巨大的計算開銷。此外,這些推理模型中控制思維過程的機制非常有限。在本文中,我們利用模型輸出的熵作為信號,發現高質量模型會經歷一系列微探索和微利用,這使得推理過程保持紮實(即避免模型在探索或思考答案時產生過多的隨機性)。我們進一步觀察到,一旦這種「思考」過程結束,更精確的模型會通過最終的利用階段顯著降低熵,從而表現出更好的收斂性(即更確定地收斂到解決方案軌跡)。然後,我們利用這些新穎且理論基礎的洞察,直接在推理過程中調整模型的行為,而無需使用任何RL或監督微調。具體來說,在推理過程中,我們提出的方法V-Reason(視頻推理)通過在一個小型可訓練控制器上進行幾步基於熵目標的優化步驟來調整LMM的值緩存,即無需任何數據集或RL的監督。這種調整改善了模型在推理過程中的微探索和利用行為。我們的實驗表明,與基礎指令微調模型相比,我們提出的方法在多個視頻推理數據集上取得了顯著的改進,將與RL訓練模型的差距縮小到平均準確率0.6%以內,同時提供了巨大的效率優勢:與RL模型相比,輸出標記減少了58.6%。
醫療診斷應用需要能夠處理多模態醫療輸入(影像、病歷、實驗室結果)並生成多樣化輸出的模型,包括文本報告和視覺內容(註釋、分割遮罩和影像)。儘管存在這一需求,現有的醫療AI系統卻打破了這一統一流程:醫療影像理解模型能解讀影像但無法生成視覺輸出,而醫療影像生成模型能合成影像卻無法提供文本解釋。這導致了數據表示、特徵整合及任務層面多模態能力的缺失。為此,我們提出了一個多層次框架,該框架通過觀察-知識-分析(OKA)範式從診斷工作流程中汲取靈感。具體而言,在觀察層面,我們構建了UniMed-5M數據集,包含超過560萬個樣本,將多樣化的單模態數據重新格式化為多模態配對,以支持基礎觀察。在知識層面,我們提出了漸進式課程學習,系統性地引入醫療多模態知識。在分析層面,我們引入了UniMedVL,這是首個醫療統一多模態模型,能在單一架構內同時分析影像理解與生成任務。UniMedVL在五個醫療影像理解基準測試中表現卓越,同時在八種醫療影像模態的生成質量上與專業模型相當。關鍵在於,我們的統一架構實現了雙向知識共享:生成任務增強了視覺理解特徵,這表明在單一醫療框架內整合傳統上分離的能力,能夠在多樣化的醫療視覺-語言任務中實現性能提升。代碼可在https://github.com/uni-medical/UniMedVL獲取。
我們介紹了Mono4DGS-HDR,這是首個從交替曝光拍攝的未定位單目低動態範圍(LDR)視頻中重建可渲染四維高動態範圍(HDR)場景的系統。為應對這一挑戰性問題,我們提出了一個基於高斯潑濺的兩階段優化統一框架。第一階段在正交相機座標空間中學習視頻HDR高斯表示,無需相機姿態即可實現穩健的初始HDR視頻重建。第二階段將視頻高斯轉換至世界空間,並與相機姿態聯合精煉世界高斯。此外,我們提出了一種時間亮度正則化策略,以增強HDR外觀的時間一致性。鑑於此任務此前未被研究,我們利用公開可用的數據集構建了一個新的HDR視頻重建評估基準。大量實驗表明,Mono4DGS-HDR在渲染質量和速度上均顯著優於從現有最先進方法改編的替代方案。
大型语言模型(LLMs)在自然语言处理中展现出强大的推理能力,但其行为通常仅限于输出词汇标记。因此,与外部环境(如符号操作符或模拟器)的交互必须通过预定义格式的文本表达,经过解析后路由至外部接口。这种做法使得模型的语言既要承担推理任务,又要负责控制功能,并且需要一个独立于LLM的手工解析器。为解决这一问题,我们将环境交互从语言中解耦,将其内化到一个超越词汇的扩展动作空间(ExpA)中。模型首先在默认的语言环境中进行推理,但可以随时触发路由动作并切换到外部环境。在此之后,模型只能调用特定于环境的动作,接收环境的反馈,并可能因此路由回语言环境。为了促进对扩展动作空间和新环境的有效探索,我们引入了带有反事实策略优化的扩展动作强化学习(EARL)。在需要多轮交互和条件规划的任务中,EARL在词汇受限动作的强基线模型上表现更优。它在基于计算器的多任务学习中表现稳健,在部分可观测的排序问题中,实现了完美的Sort-4准确率,同时自主发现了一种与经典设计相媲美的高效算法。
在诸如GitHub等平台上,代码代理被日益信赖以自主修复漏洞,然而对其安全性的评估几乎完全集中于功能正确性。本文揭示了一种针对现实世界代码代理的新型威胁:功能正确但存在漏洞(FCV)的补丁,这些补丁能通过所有测试案例却包含易受攻击的代码。通过我们提出的FCV攻击——该攻击可由恶意攻击者精心设计或由善意开发者无意引入——我们展示了包括ChatGPT和Claude在内的最先进大型语言模型(SOTA LLMs),以及SWE-agent和OpenHands等代理框架,均对此FCV威胁无免疫;在SWE-Bench上的12种代理-模型组合中,攻击仅需对代码代理进行黑箱访问及单次查询即可实施。例如,针对CWE-538(信息泄露漏洞),FCV攻击在GPT-5 Mini + OpenHands组合上达到了40.7%的攻击成功率。我们的研究结果揭示了当前评估范式所忽视的一项重要安全威胁,并呼吁开发具备安全意识的防御机制以保护代码代理。
大型多模态模型(LMMs)在科学研究中的应用日益广泛,然而它们是否能够可靠地理解并推理论文中的多模态复杂性仍不明确。一个核心挑战在于检测并解决文本、图表、表格和公式之间的不一致性,这些问题往往微妙且领域特定,最终会削弱清晰度、可重复性和信任度。现有基准测试忽视了这一问题,要么孤立单一模态,要么依赖无法捕捉现实世界复杂性的合成错误。我们引入了PRISMM-Bench(同行评审来源的多模态模型不一致性集),这是首个基于科学论文中评审者标记的真实不一致性的基准测试。通过评审挖掘、LLM辅助过滤和人工验证的多阶段流程,我们从242篇论文中精选了262个不一致性案例。基于此,我们设计了三个任务,即不一致性识别、修正和配对匹配,以评估模型在不同模态间检测、纠正和推理不一致性的能力。此外,针对多选评估中模型利用答案模式而非真正理解问题的臭名昭著的选择捷径问题,我们进一步引入了基于JSON的结构化答案表示,通过减少对表面风格线索的依赖,最小化语言偏见。我们对21个领先的LMMs进行了基准测试,包括大型开放权重模型(GLM-4.5V 106B, InternVL3 78B)和专有模型(Gemini 2.5 Pro, GPT-5高推理版)。结果显示性能极低(26.1-54.2%),凸显了多模态科学推理的挑战,并激励我们朝着可信赖的科学助手方向迈进。
可重現科學的基石在於精確、邏輯有序且可執行的實驗流程。通過自然語言查詢自主生成這些流程,能大幅提升重現過程的效率。然而,當前領先的大型語言模型(LLMs)常生成不完整或不一致的流程,限制了其實用性。為解決這一局限,我們首先引入了SciRecipe,這是一個包含超過12,000條結構化流程的大規模數據集,涵蓋27個生物學子領域,並包含理解與問題解決任務。為進一步提升流程生成質量,我們提出了“草圖與填充”範式,該範式將分析、結構化與表達分離,確保每一步驟都明確且可驗證。與此相輔相成,基於結構化組件的獎勵機制評估步驟粒度、動作順序及語義保真度,使模型優化與實驗可靠性保持一致。基於這些組件,我們開發了Thoth,其通過分階段的“知識到行動”過程進行訓練,從知識獲取逐步過渡到操作推理,最終生成穩健且可執行的流程。在多個基準測試中,Thoth持續超越專有及開源LLMs,在步驟對齊、邏輯序列及語義準確性上實現顯著提升。我們的方法為連接知識與實驗執行的可靠科學助手鋪平了道路。所有數據、代碼及模型將公開釋出。
图像质量是网络平台上呈现视觉吸引力内容的关键因素。然而,由于在线社交网络(OSNs)应用的有损操作,图像常常遭受质量下降,从而对用户体验产生负面影响。图像复原是从给定的退化输入中恢复出干净高质量图像的过程。近年来,多任务(一体化)图像复原模型因其能够同时处理不同类型的图像退化而受到广泛关注。然而,这些模型通常伴随着过多的可训练参数,导致计算效率低下。本文提出了一种压缩多任务图像复原模型的策略,旨在发现过度参数化的深度模型中的高度稀疏子网络,这些子网络能够匹配甚至超越其密集对应模型的性能。所提出的模型,即MIR-L,采用了一种迭代剪枝策略,该策略在多轮中移除低幅值权重,同时将剩余权重重置为其原始初始化状态。这一迭代过程对于多任务图像复原模型的优化至关重要,有效地揭示了在高稀疏度下保持或超越现有技术性能的“获胜彩票”。在去雨、去雾和去噪任务的基准数据集上的实验评估表明,MIR-L仅保留了10%的可训练参数,同时保持了高水平的图像复原性能。我们的代码、数据集和预训练模型已在https://github.com/Thomkat/MIR-L公开提供。
大型語言模型推理中的一個核心挑戰在於生成速度與輸出質量之間的權衡。自回歸模型能夠產生高質量的文本,但需要逐個生成詞元。擴散模型則可以並行生成詞元,但通常需要多次迭代才能達到相同的質量。我們提出了計劃擴散法,這是一種結合了兩種範式優勢的混合方法。計劃擴散法分為兩個階段:首先,模型創建一個短的自回歸計劃,將輸出分解為較小且獨立的片段;其次,模型使用擴散法同時生成這些片段。這種方法擴展了速度與質量的帕累托前沿,為實現更快、更高質量的文本生成提供了一條實用路徑。在包含805個指令跟蹤提示的AlpacaEval測試集上,計劃擴散法在質量與延遲之間實現了帕累托最優的權衡,相比自回歸生成,速度提升了1.27倍至1.81倍,而勝率僅分別下降了0.87%至5.4%。我們的敏感性分析表明,計劃擴散法的規劃機制簡潔可靠,且存在簡單的運行時調節選項,可靈活控制質量與延遲的權衡。
大型语言模型(LLMs)展现出强烈但浅层的对齐性:它们在助手轮次开始时,若预期拒绝有害查询,便会直接拒绝;然而,一旦有害内容通过对抗性攻击或助手预填充攻击得以延续,这种保护机制便会瓦解。这引发了一个根本性问题:能否解锁LLMs内在的浅层对齐性,以确保在任意生成深度下的安全性?为实现这一目标,我们提出了“任意深度对齐”(Any-Depth Alignment, ADA),一种在推理时有效且开销极小的防御机制。ADA的构建基于我们的观察:通过对浅层拒绝训练的重复使用,对齐性集中于助手头部令牌中,这些令牌拥有模型强烈的对齐先验。通过在生成过程中重新引入这些令牌,ADA促使模型重新评估有害性,并在任何生成点恢复拒绝行为。在多种开源模型系列(如Llama、Gemma、Mistral、Qwen、DeepSeek及gpt-oss)中,ADA实现了稳健的安全性能,且无需对基础模型的参数进行任何更改。它针对从数十到数千个令牌的挑战性对抗性预填充攻击,确保了接近100%的拒绝率。此外,ADA将显著对抗性提示攻击(如GCG、AutoDAN、PAIR和TAP)的平均成功率降低至3%以下。这一切都是在保持良性任务效用、最小化过度拒绝的前提下完成的。即使基础模型随后经历了良性或对抗性的指令调优,ADA仍能维持其韧性。
經過指令微調的大型語言模型(IT-LLMs)展現出強大的零樣本推理能力,然而它們執行簡單、自包含指令的能力仍未被充分探索,儘管這是複雜指令遵循的基礎。我們在修改後的MMLU和MMLU-Pro基準上評估了20個IT-LLMs,通過系統性地改變選項標籤的格式(字母、數字、羅馬數字)同時保持其意義不變,並在四種範式下進行分析:(1) 在有明確指令的情況下,標籤變化導致性能大幅波動(例如,羅馬數字與數字相比下降30.45%),揭示了指令格式偏見。(2) 在沒有指令的情況下,性能進一步下降(最多下降10.84%),且對標籤的敏感性加劇,強調了明確指導的重要性。(3) 當選項內容被移除時,模型無法超越隨機選擇基準,除非使用數字標籤,這表明對基本指令的遵循能力較弱。(4) 三樣本示例並未顯著提升模型的魯棒性或忠實度,生成分析顯示標籤錯誤持續存在,尤其是在非數字格式中。在不同模型規模下,更大的LLMs實現了更高的準確率,但在指令遵循上仍不一致。這些結果揭示了當前指令微調範式的不足,並強調了需要針對基本指令遵循的評估方法和訓練策略。
倘若人工智慧體不僅能溝通,更能進化、適應,並以我們無法全然預測的方式重塑其世界,那將會如何?隨著大語言模型(LLM)現今驅動著多智能體系統與社會模擬,我們正見證著為開放式、不斷變化的環境建模的新可能性。然而,當前大多數模擬仍受限於靜態的沙盒之中,其特徵為預定義的任務、有限的動態性及僵化的評估標準。這些限制阻礙了它們捕捉現實社會複雜性的能力。本文主張,靜態、任務特定的基準從根本上是不足的,必須重新思考。我們批判性地審視了將LLM與多智能體動態相結合的新興架構,強調了諸如平衡穩定性與多樣性、評估意外行為以及擴展至更高複雜性等關鍵挑戰,並為這一快速發展的領域引入了一套新的分類體系。最後,我們提出了一條以開放性、持續共進化及發展具有韌性、社會對齊的AI生態系統為核心的研究路線圖。我們呼籲學界超越靜態範式,共同塑造下一代適應性強、具社會意識的多智能體模擬。
我們利用全球恐怖主義數據庫(GTD,1970-2016)研究每週恐怖事件數量的短期預測。我們構建了一個可重現的流程,採用固定的時間劃分,並將雙向長短期記憶網絡(BiLSTM)與強力的經典基準(季節性樸素模型、線性/ARIMA模型)以及一個深度LSTM-注意力基線進行比較。在保留的測試集上,BiLSTM達到了6.38的均方根誤差(RMSE),優於LSTM-注意力模型(9.19;提升30.6%)和線性滯後回歸基線(RMSE提升35.4%),同時在平均絕對誤差(MAE)和平均絕對百分比誤差(MAPE)上也取得了並行的改進。通過對時間記憶、訓練歷史長度、空間粒度、回顧窗口大小及特徵組的消融實驗表明,基於長期歷史數據訓練的模型泛化能力最佳;適中的回顧窗口(20-30週)提供了強有力的上下文信息;而雙向編碼對於捕捉窗口內的積累與後續模式至關重要。特徵組分析指出,短期結構(滯後計數與滾動統計)貢獻最大,地理與傷亡特徵則帶來額外的提升。我們公開了代碼、配置及簡潔的結果表格,並提供了一份數據/倫理聲明,記錄了GTD的許可及僅限研究使用的規定。總體而言,本研究為GTD事件預測提供了一個透明且超越基線的參考框架。
可靠且可驗證的數據已成為現代語言模型能力提升的關鍵驅動力,它促進了基於可驗證獎勵的穩定強化學習,並實現了在數學、編程及代理任務間有效的能力遷移。然而,構建具有普遍性的合成可驗證數據仍面臨挑戰,原因在於生成過程易產生幻覺,以及驗證手段薄弱或瑣碎,難以區分優劣解決方案。現有方法多依賴於特定任務的啟發式規則或事後過濾,這些方法無法跨領域遷移,且缺乏一個原則性、普適性的可驗證性評估器。本研究中,我們提出了一種進化式、任務無關、策略指導、可執行檢查的數據合成框架。該框架從最小種子監督出發,同步合成問題、多樣候選解決方案及驗證依據,並通過一致性評估器迭代發現策略,該評估器強制要求人工標註與策略引導的檢查結果一致。此流程將過濾升級為原則性合成:它可靠地組裝出連貫、可驗證的訓練實例,並無需特定領域規則即可實現泛化。我們的實驗證明了所提方法在RLVR和模型蒸餾訓練範式下的有效性。結果顯示,使用我們合成的數據進行訓練,在LiveCodeBench和AgentBench-OS任務上均取得了顯著提升,凸顯了我們框架的強健泛化能力。
工具增强的大型语言模型(LLMs)正逐渐成为深度研究代理,这些系统能够分解复杂查询、检索外部证据并综合基于事实的回应。然而,当前的代理仍受限于浅层检索、弱对齐指标以及脆弱的工具使用行为。我们推出了PokeeResearch-7B,一个在统一强化学习框架下构建的7B参数深度研究代理,旨在实现鲁棒性、对齐性和可扩展性。PokeeResearch-7B通过无标注的AI反馈强化学习(RLAIF)框架进行训练,利用基于LLM的奖励信号优化策略,这些信号捕捉了事实准确性、引用忠实度和指令遵循度。一个由思维链驱动的多轮推理支架进一步增强了鲁棒性,通过自我验证和从工具故障中自适应恢复来实现。在10个流行的深度研究基准测试中,PokeeResearch-7B在7B规模的深度研究代理中实现了最先进的性能。这表明,精心设计的强化学习和推理机制能够产生高效、坚韧且研究级别的AI代理。该模型和推理代码已在MIT许可下开源,地址为https://github.com/Pokee-AI/PokeeResearchOSS。