每日精選AI研究論文及翻譯
在擴散變換器(DiT)模型中,尤其是針對視頻生成,由於序列長度較長且具有二次方複雜度,注意力延遲成為主要瓶頸。我們發現注意力權重可分為兩部分:一小部分具有高秩的大權重和其餘具有極低秩的權重。這自然建議對第一部分應用稀疏加速,對第二部分應用低秩加速。基於這一發現,我們提出了SLA(稀疏線性注意力),這是一種可訓練的注意力方法,融合了稀疏和線性注意力以加速擴散模型。SLA將注意力權重分類為關鍵、邊際和可忽略三類,對關鍵權重應用O(N^2)注意力,對邊際權重應用O(N)注意力,並跳過可忽略的權重。SLA將這些計算結合到單個GPU內核中,並支持前向和反向傳播。僅需使用SLA進行少量微調,DiT模型即可實現注意力計算的20倍減少,從而在不損失生成質量的情況下顯著加速。實驗表明,SLA在不降低端到端生成質量的情況下,將注意力計算減少了95%,優於基線方法。此外,我們為SLA實現了一個高效的GPU內核,在Wan2.1-1.3B上,注意力計算速度提升了13.7倍,視頻生成的端到端速度提升了2.2倍。
現有的語義語音分詞器,旨在捕捉語言內容,卻意外地脆弱。我們發現它們對語義無關的聲學擾動並不具備魯棒性;即使在信噪比(SNR)極高、語音完全可理解的情況下,其輸出的分詞序列也可能發生劇烈變化,從而增加了下游大型語言模型(LLMs)的學習負擔。這種不穩定性源於兩個缺陷:脆弱的單路徑量化架構以及對中間分詞穩定性漠不關心的遠程訓練信號。為解決這一問題,我們引入了StableToken,這是一種通過共識驅動機制實現穩定性的分詞器。其多分支架構並行處理音頻,並通過強大的位級投票機制合併這些表示,形成單一且穩定的分詞序列。StableToken在分詞穩定性方面樹立了新的技術標杆,在多種噪聲條件下大幅降低了單位編輯距離(UED)。這種基礎穩定性直接轉化為下游優勢,顯著提升了SpeechLLMs在各種任務上的魯棒性。
基於人類反饋的強化學習(RLHF)已成為對齊大型語言模型(LLMs)與人類偏好的標準範式。然而,基於布萊德利-特里假設的獎勵方法難以捕捉現實世界偏好的非傳遞性和異質性特徵。為解決這一問題,近期研究將對齊問題重新定義為雙人納什博弈,從而催生了基於納什學習的人類反饋(NLHF)。儘管這一視角啟發了如INPO、ONPO和EGPO等具有堅實理論與實證保證的算法,但它們本質上仍局限於雙人互動,形成了單一對手的偏見,無法捕捉現實偏好結構的全部複雜性。在本研究中,我們提出了多人納什偏好優化(MNPO),這是一個將NLHF推廣至多人場景的新框架。它將對齊問題建模為一個n人博弈,其中每個策略在與對手群體競爭的同時,還被正則化以接近參考模型。我們的框架在多人設置中建立了明確的納什均衡,並將對偶間隙的概念擴展以量化近似質量。我們證明,MNPO不僅繼承了雙人方法的均衡保證,還能實現更豐富的競爭動態和對多樣化偏好結構的更好覆蓋。通過全面的實證評估,我們展示了MNPO在指令遵循基準測試中持續超越現有的NLHF基線,在異質註釋者條件和混合策略評估場景下實現了更優的對齊質量。這些成果共同確立了MNPO作為一個原則性且可擴展的框架,用於將LLMs與複雜、非傳遞性的人類偏好對齊。代碼已公開於https://github.com/smiles724/MNPO。
統一多模態模型在圖像生成與編輯上的表現,根本上受制於其訓練數據的質量與全面性。現有數據集雖已涵蓋風格轉換及簡單物體操作等基本任務,卻往往缺乏現實應用所需的系統性結構與挑戰性場景。為解決這一瓶頸,我們推出了OpenGPT-4o-Image,這是一個大規模數據集,採用了一種結合層次化任務分類與自動化數據生成的新穎方法構建。我們的分類體系不僅包含文本渲染與風格控制等基礎能力,還引入了化學插圖所需的科學圖像及需同時執行多項操作的複雜指令編輯等高度實用且具挑戰性的類別。通過利用結構化資源池與GPT-4o的自動化流程,我們生成了8萬對高質量指令-圖像對,控制多樣性,覆蓋11個主要領域與51個子任務。大量實驗表明,在我們的數據集上微調領先模型,在多個基準測試中取得了顯著的性能提升,編輯任務(UniWorld-V1在ImgEdit-Bench上)提升高達18%,生成任務(Harmon在GenEval上)提升13%。我們的工作證明了系統化的數據構建是推進多模態AI能力的關鍵。
在可驗證獎勵的強化學習(RLVR)領域,主流觀點將最新進展解讀為探索與利用之間的權衡,這一視角主要基於詞元層面的指標。我們重新審視這一觀點,提出這種被感知的權衡可能並非根本性約束,而是測量層面的產物。為探究此點,我們將分析轉移至語義豐富的隱藏狀態空間,採用有效秩(ER)來量化探索,並提出其新穎的一階和二階導數,分別命名為有效秩速度(ERV)和有效秩加速度(ERA),以捕捉利用動態。我們的分析揭示,在隱藏狀態層面,探索與利用能夠被解耦(見第4節)。這一發現揭示了同時提升兩者能力的可能性。這一洞見激發了我們的方法——速度利用秩學習(VERL),這是首個通過直接塑造RL優勢函數來實現探索與利用協同增強原則的方法。其關鍵創新在於利用理論上穩定的ERA作為預測性元控制器,創建一個協同的雙通道激勵結構。VERL並非強制權衡,而是前瞻性地放大探索獎勵以防止過度自信,並強化利用收益以鞏固推理。在多樣化的大型語言模型和推理基準上的實驗顯示出一致的增益,包括在具有挑戰性的2024年高考數據集上實現了高達21.4%的絕對準確率提升。
將視覺理解與生成能力整合至統一的多模態模型中,標誌著向通用人工智慧邁出了重要一步。然而,現有基準測試未能解答一個根本性問題:這種架構上的統一是否真正促成了各組成能力之間的協同互動?現有的評估範式主要孤立地評估理解與生成能力,無法確定統一模型是否能夠利用其理解能力來增強生成,或通過生成模擬來促進更深層次的理解。為填補這一關鍵空白,我們引入了RealUnify,這是一個專門設計用於評估雙向能力協同的基準測試。RealUnify包含1000個經過人工精心註釋的實例,涵蓋10個類別和32個子任務,其結構圍繞兩個核心軸線:1)理解增強生成,要求通過推理(如常識、邏輯)來指導圖像生成;2)生成增強理解,需要通過心理模擬或重建(如對變形或混亂的視覺輸入)來解決推理任務。我們的一個關鍵貢獻是雙重評估協議,該協議結合了直接的端到端評估與診斷性的逐步評估,將任務分解為獨立的理解和生成階段。這一協議使我們能夠精確識別性能瓶頸是源於核心能力的不足,還是整合這些能力的失敗。通過對12個領先的統一模型和6個專業基線模型的大規模評估,我們發現當前的統一模型在實現有效協同方面仍面臨挑戰,表明僅靠架構統一是不夠的。這些結果強調了需要新的訓練策略和歸納偏置,以充分釋放統一建模的潛力。
我們介紹了SANA-Video,這是一款小型擴散模型,能夠高效生成分辨率高達720x1280、長度達分鐘級別的視頻。SANA-Video以驚人的速度合成高分辨率、高質量且時長較長的視頻,並實現了強烈的文本-視頻對齊,可在RTX 5090 GPU上部署。兩項核心設計確保了我們高效、有效且長視頻的生成:(1) 線性DiT:我們利用線性注意力作為核心操作,這在處理視頻生成中大量令牌時比傳統注意力機制更為高效。(2) 塊線性注意力的恆定記憶KV緩存:我們設計了一種基於塊的自回歸方法,通過採用從線性注意力累積特性中衍生的恆定記憶狀態來生成長視頻。此KV緩存以固定記憶成本為線性DiT提供全局上下文,消除了對傳統KV緩存的需求,從而實現了高效的分鐘級視頻生成。此外,我們探索了有效的數據過濾器和模型訓練策略,將訓練成本縮減至在64台H100 GPU上僅需12天,僅為MovieGen成本的1%。鑑於其低成本,SANA-Video在與現代最先進的小型擴散模型(如Wan 2.1-1.3B和SkyReel-V2-1.3B)相比時,展現出競爭力的性能,同時在測量延遲上快16倍。此外,SANA-Video可在RTX 5090 GPU上以NVFP4精度部署,將生成5秒720p視頻的推理速度從71秒加速至29秒(提速2.4倍)。總之,SANA-Video實現了低成本、高質量的視頻生成。
擴散語言模型(DLMs)在理論上具有高效性,但受限於固定長度的解碼以及與鍵值(KV)緩存的不兼容性。區塊擴散雖緩解了這些問題,但仍強制執行固定區塊大小且需要昂貴的訓練成本。我們引入了下一序列預測(NSP),它統一了下一詞元與下一區塊的預測,使模型能夠自適應地決定每一步的生成長度。當長度固定為1時,NSP便退化為標準的下一詞元預測。基於NSP,我們提出了序列擴散語言模型(SDLM),該模型能夠以最小成本改造預訓練的自迴歸語言模型(ALMs)。具體而言,SDLM在固定大小的掩碼區塊內執行擴散推理,但根據模型置信度動態解碼連續子序列,從而保持與KV緩存的兼容性,並提升對序列中不同不確定性與語義的魯棒性。實驗表明,SDLM僅使用350萬訓練樣本即可匹配或超越強勁的自迴歸基線模型,同時實現了比Qwen-2.5高出2.1倍的吞吐量。值得注意的是,SDLM-32B模型展現出更為顯著的效率提升,證明了我們建模範式的強大可擴展潛力。項目頁面與代碼請見:https://github.com/OpenGVLab/SDLM。
AI科學家正在崛起,作為發現過程中的協作夥伴,這些計算系統的構建仍面臨挑戰,因為它們是定制化的,依賴於僵化的工作流程,並且缺乏將工具、數據和分析統一於共同生態系統的共享環境。在組學領域,統一的生態系統通過實現互操作性、重用性和社區驅動的開發,已經轉變了研究方式;AI科學家同樣需要類似的基礎設施。我們推出了ToolUniverse,這是一個生態系統,旨在從任何語言或推理模型中構建AI科學家,無論是開源還是閉源。TOOLUNIVERSE標準化了AI科學家識別和調用工具的方式,集成了超過600個機器學習模型、數據集、API和科學包,用於數據分析、知識檢索和實驗設計。它自動優化工具接口以確保AI科學家的正確使用,根據自然語言描述創建新工具,迭代優化工具規格,並將工具組合成自主的工作流程。在高膽固醇血症的案例研究中,ToolUniverse被用來創建一個AI科學家,以識別一種具有良好預測特性的藥物強效類似物。開源的ToolUniverse可在https://aiscientist.tools獲取。
具備推理能力的大型語言模型(LLMs)在多種任務上已達到了最先進的表現。儘管其在實證上取得了成功,但推理能力在哪些任務和模型規模下變得有效,以及其訓練和推理成本,仍未被充分探索。在本研究中,我們依賴於一個合成數據蒸餾框架來進行大規模的監督學習研究。我們比較了不同規模的指令微調(IFT)模型和推理模型,在多種以數學為核心和通用任務上的表現,評估了包括多選題和開放式問題在內的多種格式。我們的分析顯示,推理能力持續提升模型表現,往往能匹配甚至超越顯著更大的IFT系統。值得注意的是,雖然IFT在訓練和推理成本上仍保持帕累托最優,但隨著模型規模的擴大,推理模型的價值日益凸顯,能夠在推理密集型和開放式任務上突破IFT的性能限制。
基於強化學習的後訓練方法近期已成為提升多模態大語言模型(MLLMs)對齊與推理能力的強大範式。雖然以視覺為核心的後訓練對於增強MLLMs對視覺信號的內在理解至關重要,但當前的後訓練範式仍主要圍繞文本展開,其中密集的視覺輸入僅被用於提取稀疏線索以支持基於文本的推理。儘管已有一些探索此方向的方法,但它們往往仍依賴文本作為中介或引入了額外的視覺生成設計。在本研究中,我們提出了視覺拼圖(Visual Jigsaw),這是一個通用的自監督後訓練框架,旨在強化MLLMs的視覺理解能力。視覺拼圖被構建為一項通用的排序任務:視覺輸入被分割、打亂,模型需通過生成自然語言中的正確排列來重建視覺信息。這自然契合了基於可驗證獎勵的強化學習(RLVR),無需額外的視覺生成組件,且自動獲取監督信號,無需任何標註。我們在圖像、視頻及3D數據三種視覺模態上實例化了視覺拼圖。大量實驗表明,該方法在細粒度感知、時間推理及3D空間理解方面帶來了顯著提升。我們的研究成果凸顯了自監督視覺核心任務在MLLMs後訓練中的潛力,並期望能激發更多關於視覺核心預訓練設計的研究。項目頁面:https://penghao-wu.github.io/visual_jigsaw/
儘管擴散語言模型(DLMs)為自迴歸模型(ARs)提供了一種有前景的替代方案,現有的開源DLMs卻面臨著高推理延遲的瓶頸。這一瓶頸主要源於注意力機制在計算所有查詢-鍵對時,其複雜度與上下文長度呈二次方關係。直觀上,為降低此複雜度,一種自然策略是將注意力限制於僅保留最相關連接的稀疏模式上。此類方法在ARs中已得到廣泛應用,其中注意力遵循固定且明確定義的稀疏模式。然而,在DLMs中,我們觀察到不同的稀疏行為:(1)注意力模式在不同頭部間存在差異,(2)每個頭部的注意力模式在去噪步驟間保持高度相似,以及(3)早期去噪步驟對生成至關重要。這些發現使得為ARs設計的稀疏注意力方法在很大程度上與DLMs不兼容,因為它們未能捕捉到頭部特定的結構,且在應用於早期去噪步驟時可能導致生成質量下降。為應對這些挑戰,我們提出了SparseD,一種專為DLMs設計的新穎稀疏注意力方法。基於上述觀察,SparseD僅需一次性預計算頭部特定的稀疏模式,並在所有步驟中重複使用,從而避免了在每個去噪步驟重新計算稀疏模式。同時,SparseD在早期步驟使用全注意力,隨後切換至稀疏注意力以保持生成質量。這些特點共同使SparseD成為在長上下文應用中部署DLMs的實用且高效的解決方案。實驗結果表明,SparseD實現了無損加速,在64k上下文長度和1,024個去噪步驟的條件下,相較於FlashAttention,速度提升最高可達1.50倍。
視覺語言模型(VLMs)實現了圖像與文本的統一建模,使其能夠通過感知、規劃與推理來完成複雜的現實世界任務。在這些任務中,推理尤為具有代表性,其中數學推理作為一個顯著的例子,凸顯了VLMs在理解圖像中的數學信息及進行高級推理方面的高層次能力。近年來,眾多視覺數學推理基準被提出,但它們往往局限於幾何學,缺乏對數學文字問題的覆蓋,且鮮少評估跨多圖像的推理能力。為填補這些空白,我們引入了GSM8K-V,這是一個純視覺的多圖像數學推理基準。GSM8K-V通過系統性地將廣泛使用的基於文本的GSM8K中的每個樣本映射為視覺形式而構建。通過精心設計的自動圖像生成流程結合細緻的人工註釋,我們精選了1,319個高質量樣本。我們在GSM8K-V上評估了多種開源與閉源模型。結果顯示,儘管現有的VLMs在基於文本的GSM8K上性能已接近飽和,但在GSM8K-V上仍有顯著的提升空間。例如,表現最佳的模型Gemini-2.5-Pro在GSM8K上達到了95.22%的準確率,但在GSM8K-V上僅為46.93%。我們對GSM8K-V進行了全面分析,探討了當前模型的局限性以及潛在的改進方向。GSM8K-V為視覺數學推理提供了新的視角,並建立了一個基準,以指導開發更為穩健且泛化能力更強的VLMs。
可驗證獎勵的強化學習(RLVR)已成為提升大型語言模型(LLMs)推理能力的一種前景廣闊的範式。現有方法主要依賴於如PPO和GRPO等策略優化框架,這些框架遵循廣義策略迭代,即在評估當前策略價值與基於評估改進策略之間交替進行。儘管有效,這些方法常遭遇訓練不穩定與多樣性崩潰的問題,需依賴複雜的啟發式技巧與精細調參。我們觀察到,在數學推理中,標準的RLVR可被形式化為一種特殊的有限時域馬爾可夫決策過程,其特徵在於確定性的狀態轉移、樹狀結構的動態性及二元終端獎勵。儘管規模龐大,其底層結構相比於流行RL算法(如PPO)所針對的通用控制場景更為簡單,這表明現有方法中的多項複雜技術或可簡化甚至省略。基於此洞察,我們證明了令人驚奇的結果:最優動作可從固定均勻隨機策略的Q函數中恢復,從而繞過廣義策略迭代循環及其相關啟發式方法。我們引入了“隨機策略估值促進多樣性推理”(ROVER),將這一原則轉化為適用於LLM數學推理的實用且可擴展的算法,這是一種極簡卻高效的RL方法,它從這些均勻策略Q值的softmax中採樣動作。ROVER在整個訓練過程中保持多樣性,允許持續探索多條有效路徑。在多種基礎模型與標準數學推理基準測試中,ROVER展現出在質量(pass@1提升8.2,pass@256提升16.8)與多樣性(提升17.6%)上的卓越表現,儘管其相比於現有強大而複雜的方法進行了根本性的簡化。
指令引導的圖像編輯已取得顯著進展,然而當前模型在處理複雜指令時仍面臨挑戰,且往往需要多次嘗試才能產生理想結果。強化學習(RL)提供了一個有前景的解決方案,但其在圖像編輯中的應用因缺乏高保真、高效的獎勵信號而嚴重受阻。在本研究中,我們提出了一套全面的方法論來克服這一障礙,其核心在於開發一個最先進的專用獎勵模型。我們首先引入了EditReward-Bench,這是一個用於系統評估獎勵模型在編輯質量上的綜合基準。基於此基準,我們開發了EditScore,一系列用於評估指令引導圖像編輯質量的獎勵模型(7B-72B)。通過精心的數據策劃和過濾,EditScore有效匹配了學習專有視覺語言模型(VLMs)的性能。此外,結合針對EditScore生成特性量身定制的有效自集成策略,我們的最大變體甚至在基準測試中超越了GPT-5。我們隨後證明,高保真的獎勵模型是解鎖圖像編輯在線RL的關鍵。實驗表明,即使最大的開源VLMs也無法提供有效的學習信號,而EditScore則能實現高效且穩健的策略優化。將我們的框架應用於強大的基礎模型OmniGen2,最終模型展現出顯著且一致的性能提升。總體而言,這項工作首次系統性地從基準測試到獎勵建模再到RL訓練,在圖像編輯領域開闢了一條路徑,證明了高保真、領域專用的獎勵模型是充分發揮RL在該領域潛力的關鍵。
深度研究代理(DRAs)能夠自主進行複雜的調查並生成全面的報告,展現出強大的現實應用潛力。然而,現有的評估大多依賴於封閉式基準測試,而開放式的深度研究基準測試仍然稀缺,且通常忽視了個性化場景。為彌補這一差距,我們引入了個性化深度研究基準(Personalized Deep Research Bench),這是首個用於評估DRAs個性化能力的基準測試。它將10個領域中的50個多樣化研究任務與25個真實用戶檔案配對,這些檔案結合了結構化的個人屬性與動態的現實世界情境,從而產生了250個真實的用戶-任務查詢。為了評估系統性能,我們提出了PQR評估框架,該框架綜合衡量(P)個性化對齊、(Q)內容質量以及(R)事實可靠性。我們在一系列系統上的實驗揭示了當前處理個性化深度研究的能力與限制。這項工作為開發和評估下一代真正個性化的AI研究助手奠定了嚴謹的基礎。
大型語言模型(LLM)導向技術已成為一種前景廣闊的範式,通過對隱藏狀態的定向操控來在推理時控制模型行為,提供了一種輕量級的替代方案,避免了昂貴的重新訓練。然而,現有的導向框架存在關鍵限制:計算效率低下、擴展性有限以及功能受限,這些都阻礙了研究進展和實際部署。我們提出了EasySteer,這是一個基於vLLM構建的高性能、可擴展的LLM導向統一框架。我們的系統具有模塊化架構,提供可插拔的接口,支持基於分析和基於學習的方法,精細的參數控制,預先計算的八個應用領域的導向向量,以及一個互動演示系統。通過與vLLM優化的推理引擎深度集成,EasySteer相比現有框架實現了5.5至11.4倍的加速。大量實驗證明了其在緩解過度思考、減少幻覺以及其他關鍵應用中的有效性。EasySteer將導向技術從研究手段轉變為生產就緒的能力,為可部署、可控的語言模型建立了關鍵基礎設施。
近期,文本到視頻生成技術的進步已能產出愈發逼真且多樣化的內容,然而,由於此類視頻在視覺質量、語義對齊及物理一致性等多方面的複雜性,其評估仍面臨根本性挑戰。現有的評估工具和獎勵模型僅限於提供單一且不透明的分數,缺乏可解釋性,或僅能進行粗略分析,這使得它們無法全面捕捉視頻質量評估的綜合特性。我們推出了VideoScore2,這是一個多維度、可解釋且與人類評判對齊的框架,它明確評估視覺質量、文本到視頻的對齊度以及物理/常識一致性,並生成詳細的思維鏈推理。我們的模型基於大規模數據集VideoFeedback2進行訓練,該數據集包含27,168個帶有分數及跨三個維度推理痕跡的人類註釋視頻,採用監督微調後接續使用群組相對策略優化(GRPO)進行強化學習的兩階段管道,以增強分析的魯棒性。大量實驗表明,VideoScore2在我們內部基準VideoScore-Bench-v2上達到了44.35(+5.94)的準確率,並在四個外部基準(如VideoGenReward-Bench、VideoPhy2等)上平均表現為50.37(+4.32),同時提供可解釋的評估,通過有效的獎勵建模為Best-of-N採樣搭建起評估與可控生成之間的橋樑。項目頁面:https://tiger-ai-lab.github.io/VideoScore2/
流媒体视频生成作为交互式世界模型和神经游戏引擎中的一项基础组件,旨在生成高质量、低延迟且时间上连贯的长视频流。然而,现有的大多数工作都面临着严重的误差累积问题,这往往会在长时间范围内显著降低生成视频流的质量。我们设计了滚动强制(Rolling Forcing),这是一种新颖的视频生成技术,能够在最小化误差累积的情况下实现长视频流的生成。滚动强制技术包含三项创新设计。首先,我们摒弃了逐帧迭代采样的传统方法,因其会加速误差传播,转而设计了一种联合去噪方案,该方案能够同时处理多帧图像,并逐步增加噪声水平。这一设计放宽了相邻帧之间的严格因果关系,有效抑制了误差的增长。其次,我们将注意力汇聚机制引入到长时域视频流生成任务中,使模型能够保留初始帧的关键值状态作为全局上下文锚点,从而增强了长期全局一致性。第三,我们设计了一种高效的训练算法,该算法能够在大幅扩展的去噪窗口上进行少步蒸馏。此算法操作于非重叠窗口上,并减轻了基于自生成历史的条件暴露偏差。大量实验表明,滚动强制技术能够在单个GPU上实现多分钟视频的实时流媒体生成,并大幅减少了误差累积。
我们推出HunyuanImage 3.0,这是一个原生多模态模型,它将多模态理解与生成统一于自回归框架之中,并公开了其图像生成模块。HunyuanImage 3.0的成就依赖于多个关键组成部分,包括精细的数据整理、先进的架构设计、原生的思维链模式、渐进式模型预训练、积极的模型后训练,以及支持大规模训练与推理的高效基础设施。凭借这些进步,我们成功训练了一个包含超过800亿参数的专家混合模型(MoE),在推理时每个令牌激活130亿参数,使其成为迄今为止最大且最强大的开源图像生成模型。我们进行了广泛的实验,自动与人工评估的文本-图像对齐及视觉质量结果表明,HunyuanImage 3.0可与以往最先进的模型相媲美。通过发布HunyuanImage 3.0的代码与权重,我们旨在让社区能够基于这一顶尖基础模型探索新思路,促进一个充满活力与生机的多模态生态系统。所有开源资源均公开于https://github.com/Tencent-Hunyuan/HunyuanImage-3.0。
強化學習(Reinforcement Learning, RL)已成為一種廣受歡迎的訓練範式,尤其是在與推理模型結合時。儘管其效果顯著,但主要聚焦於生成回應,缺乏明確促進批判或反思的機制。近期的幾項研究,如批判微調(Critique-Fine-Tuning, CFT)和批判引導蒸餾(Critique-Guided-Distillation, CGD),已展示了明確教導大型語言模型(LLMs)如何進行批判的益處。受此啟發,我們提出了批判強化學習(Critique Reinforcement Learning, CRL),其中模型需為給定的(問題,解答)對生成批判。獎勵僅基於生成的批判的最終判斷標籤c(屬於{真,假})是否與真實判斷c^*一致。基於此,我們引入了Critique-Coder,該模型通過將標準RL數據的20%替換為CRL數據,在RL與CRL的混合訓練下進行訓練。我們對多個模型(Critique-Coder)進行微調,並在不同基準上評估它們,以展示其相較於僅使用RL模型的優勢。結果表明,Critique-Coder在所有評估基準上均持續超越僅使用RL的基線模型。值得注意的是,我們的Critique-Coder-8B在LiveCodeBench(v5)上可達到超過60%的成績,優於其他推理模型如DeepCoder-14B和GPT-o1。除了代碼生成,Critique-Coder還展現了增強的一般推理能力,這在BBEH數據集的邏輯推理任務中表現更佳。這表明,在編碼數據集上應用CRL能提升一般推理和批判能力,這些能力可廣泛轉移至多種任務。因此,我們相信CRL是對標準RL在LLM推理中的有力補充。
我們提出,要實現模型的持續改進與多維度對齊,未來的模型必須從自然的人類互動中學習。當前的對話模型是通過預先註釋、由專家生成的人類反饋來進行對齊的。在本研究中,我們引入了基於人類互動的強化學習(Reinforcement Learning from Human Interaction, RLHI),這是一種直接從真實用戶對話中學習的範式。我們開發了兩種互補的方法:(1)帶有用戶引導重寫的RLHI,該方法根據用戶的自然語言後續回應來修正不滿意的模型輸出;(2)帶有用戶基於獎勵的RLHI,該方法通過一個基於用戶長期互動歷史(稱為“人物設定”)知識的獎勵模型來學習。這兩種方法共同通過人物設定條件下的偏好優化,將長期用戶人物設定與回合層面的偏好聯繫起來。在基於WildChat對話數據的訓練中,兩種RLHI變體在個性化和指令遵循方面均超越了強基準模型,且類似的反饋也提升了在推理基準測試上的表現。這些結果表明,有機的人類互動為個性化對齊提供了可擴展且有效的監督。
我們研究了將3D基礎模型(3DFMs)應用於密集新視角合成(NVS)的問題。儘管基於NeRF和3DGS的新視角合成取得了顯著進展,但當前方法仍依賴於從結構從運動(SfM)中獲取的準確3D屬性(如相機姿態和點雲),這在低紋理或低重疊的捕捉中往往緩慢且脆弱。最近的3DFMs展示了相較於傳統管線的數量級加速,並展現了在線NVS的巨大潛力。但大多數驗證和結論僅限於稀疏視角設置。我們的研究發現,將3DFMs簡單擴展到密集視角會遇到兩個基本障礙:顯著增加的VRAM負擔以及不完美的輸出,這些輸出會降低對初始化敏感的3D訓練質量。為解決這些障礙,我們引入了VGGT-X,包含一個可擴展至1000+圖像的內存高效VGGT實現、用於增強VGGT輸出的自適應全局對齊,以及穩健的3DGS訓練實踐。大量實驗表明,這些措施顯著縮小了與COLMAP初始化管線的保真度差距,在密集無COLMAP的NVS和姿態估計中達到了最先進的成果。此外,我們分析了與COLMAP初始化渲染之間剩餘差距的原因,為未來3D基礎模型和密集NVS的發展提供了見解。我們的項目頁面可在https://dekuliutesla.github.io/vggt-x.github.io/ 訪問。
大型語言模型(LLMs)在通用數學推理方面表現出色,但在專業技術數學領域卻表現得極為糟糕。在無線通信領域,問題需要精確處理信息理論界限、優化約束和信號處理公式,即使是最先進的模型也難以達到合格的水平。我們提出了WirelessMathLM,展示了通過領域特定的強化學習與可驗證的獎勵機制,緊湊型模型(0.5B-7B參數)能夠匹配甚至超越更大的模型。我們的關鍵洞察是,無線數學問題具有一個獨特的屬性——可驗證的正確性——這使得無需人類反饋即可進行有效的強化學習。我們構建了WirelessMathBench-XL,這是一個包含970篇論文中4,027個問題的綜合基準。使用基於二元驗證獎勵的群體相對策略優化(GRPO),我們直接從基礎檢查點訓練模型,無需監督式熱啟動。我們的7B模型在WirelessMathBench-XL上達到了39.5%的準確率,接近GPT-4o(40.4%),而參數數量僅為DeepSeek-R1(671B,57.4%)的約百分之一。值得注意的是,GRPO訓練在所有模型規模上幾乎都將性能提升了一倍(0.5B +11%,3B +103%,7B +81%),並且在通用數學基準上表現出正向遷移——我們的模型在MATH、Minerva-Math、OlympiadBench、AMC和AIME等任務上平均提升了+8.4分,而無需對這些任務進行任何訓練。
強化學習(RL)是否真正教會了大型語言模型(LLMs)新技能,還是僅僅激活了其已有的能力?這一問題是當前關於RL在LLM後訓練中角色爭論的核心。一方面,即使沒有先前的監督微調,RL也能取得顯著的實證結果;另一方面,批評者認為RL除了重新權衡現有的推理策略外,貢獻甚微。本研究提供了具體證據,表明LLMs在RL過程中能夠通過組合現有技能來真正掌握新技能,這與人類獲取新認知技能的核心機制之一相呼應。為減少數據污染及其他混淆因素,並精確控制任務複雜度,我們開發了一個合成框架進行研究。具體而言,我們將技能定義為給定x時推斷字符串轉換函數f(x)輸出的能力。當LLM在RL之前已學習了f和g時,我們的實驗揭示,RL使其能夠學習到未見過的組合h(x)=g(f(x))。此外,這種組合能力還能泛化到更難的問題上,如RL訓練期間未見過的>2個函數的組合。令人驚訝的是,我們的實驗顯示,在源任務上獲得的組合技能能夠遷移到不同的目標任務上。這種遷移甚至無需在目標任務上進行組合訓練,僅需事先了解目標任務的原子技能即可。我們的定性分析表明,RL從根本上改變了模型的推理行為。相比之下,使用相同數據進行下一個詞訓練則無法得出這些發現。我們系統性的實驗為LLM學習提供了新的見解,建議首先構建具備基本技能的基礎模型,然後利用RL激勵其掌握針對複雜問題的高級、可泛化技能。
近期在大语言模型(LLMs)推理任务上的突破,很大程度上依赖于大规模、高质量的数据集——这些数据集通常由人工标注,因而难以扩展。尽管数据合成或蒸馏提供了一种有前景的替代方案,但现有方法在数据质量不一致及无法动态适应模型能力演变方面存在困难,导致训练信号不理想。为解决这些局限,我们引入了Socratic-Zero,一个完全自主的框架,通过三个代理——教师、求解器和生成器的协同进化,从少量种子示例中生成高质量的训练数据。求解器通过从成功与失败轨迹的偏好反馈中不断精进其推理能力;教师则根据求解器的弱点,自适应地设计日益复杂的问题;生成器则提炼教师的问题设计策略,以实现可扩展、高保真的课程生成。这一闭环系统产生了一个自我提升的课程体系,无需预先存在的任务或标签。值得注意的是,仅从100个种子问题出发,我们的Socratic-Solver-8B在七个数学推理基准测试(AMC23、AIME24-25、奥林匹克竞赛、MATH-500、Minerva和GSM8K)上,相较于先前的数据合成方法,平均提升了+20.2个百分点,且在Qwen3和GLM4系列模型上均表现出持续增益。更令人惊讶的是,来自Socratic-Generator-32B的合成数据,使得学生LLMs在这些基准测试上的表现超越了其他最先进的商业LLMs,包括Qwen3-235B-A22B、DeepSeek-V3.1-671B、GPT-5、Gemini-2.5-Pro、Grok-4和Claude-4.1-Opus。
數據分析代理正逐漸成為自動化科學發現和創新人工智慧願景的關鍵催化劑。然而,當前的方法過度依賴於對專有模型進行提示工程,而開源模型則難以應對現實世界分析所需求的多樣化格式、大規模數據文件以及長時序、多步驟的推理。本文介紹了DataMind,這是一種可擴展的數據合成與代理訓練方案,旨在構建通用的數據分析代理。DataMind針對構建開源數據分析代理面臨的三個關鍵挑戰,包括數據資源不足、訓練策略不當以及基於代碼的多輪執行不穩定。具體而言,DataMind採用了:1)細粒度的任務分類與遞進式易到難任務組合機制,以提升合成查詢的多樣性與難度;2)知識增強的軌跡採樣策略,隨後進行基於模型和規則的過濾;3)結合SFT與RL損失的動態可調訓練目標;4)內存節省且穩定的基於代碼的多輪執行框架。基於DataMind,我們精心製作了DataMind-12K,這是一個涵蓋多領域、任務類別及數據文件格式的高質量軌跡集,專為數據分析任務設計。在DataMind-12K上訓練的DataMind-14B在多個數據分析基準測試中取得了71.16%的平均分,超越了最強的專有基線DeepSeek-V3.1和GPT-5。我們的DataMind-7B同樣在所有開源模型中表現最佳,得分為68.10%。我們還將探索性試驗中獲得的經驗見解融入分析實驗,旨在為社區提供關於代理訓練的可操作見解。我們將向社區發布DataMind-12K及DataMind-7B、14B,以供未來研究之用。
空間智能涵蓋了一系列豐富的能力,包括視覺化與變換形狀、在腦中旋轉物體、判斷相對位置與包含關係,以及估算數量。然而,這仍是多模態大型語言模型(MLLMs)面臨的一個關鍵未解難題。為填補這一空白,我們提議將歐幾里得幾何問題解決作為替代任務。具體而言,我們精心構建了一個名為Euclid30K的多模態數據集,包含約30K道平面與立體幾何問題。為了讓模型能從這些幾何問題中學習並應用歐幾里得原理,我們採用群組相對策略優化(GRPO)對Qwen2.5VL系列和RoboBrain2.0系列進行微調,激勵模型識別形狀、計數、關聯實體,並運用歐幾里得原理進行多步演繹推理。實驗結果顯示,經過訓練的模型在四個空間推理基準測試(Super-CLEVR、Omni3DBench、VSI-Bench和MindCube)上均實現了顯著的零樣本性能提升,無需任何任務特定適應。值得注意的是,在Euclid30K上訓練後,所有評估模型的VSI-Bench平均準確率從34.5%提升至40.5%,提高了5.5個百分點。其中,RoboBrain2.0-Euclid-7B以49.6%的準確率超越了先前的最先進模型Spatial-MLLM。據我們所知,這是首次系統性研究表明,以幾何為中心的微調能賦予視覺-語言模型廣泛可遷移的空間技能。代碼及Euclid30K數據集可在https://zgca-ai4edu.github.io/Euclids_Gift獲取。
視覺個性化在面向用戶的AI系統(如智能家居和醫療保健)中至關重要,這些系統需要將模型行為與以用戶為中心的概念對齊。然而,儘管最近的大型視覺-語言模型(VLMs)具有廣泛的適用性,但其適應個體用戶的能力仍未得到充分探索。本文介紹了MMPB,這是首個用於評估VLMs個性化能力的廣泛基準。MMPB包含10k個圖像-查詢對,涵蓋了人類、動物、物體和角色四個類別的111個可個性化概念,其中人類類別還包含了基於偏好的查詢。我們將個性化結構化為三個主要任務類型,每個類型都突出了VLMs的不同關鍵特性。通過使用23個廣泛使用的VLMs(包括開源和閉源模型),我們通過三階段協議評估了個性化性能:概念注入、多輪對話和個性化查詢。我們的研究結果表明,大多數VLMs(包括一些閉源模型)在個性化方面表現不佳,特別是在保持對話一致性、處理用戶偏好和適應視覺線索方面。我們的分析揭示了VLM個性化中的挑戰(如拒絕行為和長上下文遺忘),表明仍有很大的改進空間。通過識別這些限制並提供可擴展的基準,MMPB為未來真正個性化的多模態AI研究提供了寶貴的見解和堅實的基礎。項目頁面:aidaslab.github.io/MMPB
我們推出MGM-Omni,這是一個統一的Omni LLM,用於全模態理解及富有表現力的長時程語音生成。與將語音合成孤立處理的級聯管道不同,MGM-Omni採用了一種“大腦-嘴巴”設計,其雙軌道、基於令牌的架構清晰地將多模態推理與實時語音生成解耦。這一設計實現了高效的跨模態交互和低延遲的流式語音生成。在理解方面,結合雙音頻編碼器設計的統一訓練策略,使得模型能在多樣化的聲學條件下進行長音頻感知。在生成方面,基於塊的並行解碼方案縮小了文本與語音令牌率之間的差距,加速了推理過程,並支持在長時間內保持音色穩定的流式零樣本語音克隆。與同期工作相比,MGM-Omni以顯著的數據效率實現了這些能力。大量實驗表明,MGM-Omni在保持長序列音色一致性、生成自然且上下文感知的語音,以及實現優異的長音頻和全模態理解方面,均超越了現有的開源模型。MGM-Omni為全模態理解和可控的個性化長時程語音生成建立了一個高效的端到端範式。
單目深度估計(Monocular Depth Estimation, MDE)是計算機視覺中的一項基礎任務。傳統方法受限於數據稀缺與質量問題,影響了其魯棒性。為此,我們提出了BRIDGE,這是一個基於強化學習優化的深度到圖像(Depth-to-Image, D2I)生成框架,它能夠從多樣化的源深度圖中合成超過2000萬張既真實又幾何精確的RGB圖像,每張圖像都內在地配對了其真實深度值。隨後,我們在此數據集上訓練我們的深度估計模型,採用了一種混合監督策略,該策略結合了教師模型的偽標籤與真實深度信息,以實現全面且魯棒的訓練。這一創新的數據生成與訓練範式使BRIDGE在規模與領域多樣性上取得突破,無論是在定量評估還是在複雜場景細節捕捉方面,均持續超越現有的頂尖方法,從而促進了通用且魯棒的深度特徵的發展。代碼與模型可通過https://dingning-liu.github.io/bridge.github.io/獲取。
工具整合推理(Tool-Integrated Reasoning, TIR)使大型語言模型(LLMs)能夠通過整合外部工具來提升其內部推理能力。然而,採用TIR的模型常表現出次優行為,如工具使用不足或過度,以及在工具調用後的過度思考。如何激勵LLMs高效且準確地執行TIR,同時穩定推理過程,仍是一個未解之難題。本文首先從信息熵的角度探討工具調用對模型推理的影響。我們的研究發現,工具調用結果會導致後續推理的信息熵發生顯著變化,且推理鏈的整體熵會根據工具調用的數量而變化。基於這些洞察,我們提出了Tool-Light框架,旨在鼓勵LLMs高效且準確地執行TIR。該框架包括數據集構建和多階段微調。在數據集構建方面,我們採用微調模型進行連續自我進化採樣,整合了普通採樣和熵引導採樣。此外,我們在採樣過程中建立了嚴格的正面-負面樣本對選擇標準。訓練過程採用兩階段方法,包括監督微調(Supervised Fine-Tuning, SFT)和自我進化直接偏好優化(Direct Preference Optimization, DPO)。在10個數據集上的實驗結果證明了Tool-Light的有效性,顯著提升了模型執行TIR任務的效率。
大型视觉语言模型(LVLMs)在多模态任务上展现出强大的性能,然而它们往往依赖于其语言先验(LP)——即预训练过程中记忆的文本模式,而未能充分利用视觉证据。先前对LP的分析大多依赖于输入输出探测,这种方法未能揭示视觉何时以及如何影响模型行为的内部机制。为填补这一空白,我们首次通过嵌入链的视角对语言先验进行了系统分析,考察了LVLMs内部各层的表示动态。我们的分析揭示了一个普遍现象:每个模型均表现出一个视觉整合点(VIP),这是一个关键层,在此层视觉信息开始有意义地重塑隐藏表示并影响解码过程。基于这一观察,我们引入了总视觉整合(TVI)估计器,该估计器通过聚合VIP之后的表示距离来量化视觉查询对响应生成的强烈程度。在涵盖9个当代LVLMs和6个基准测试的54个模型-数据集组合中,我们证明了VIP的一致出现,并且TVI能够可靠地预测语言先验的强度。这为诊断和理解LVLMs中的语言先验提供了一个原则性的工具包。
长序列处理是现代大型语言模型的关键能力。然而,标准Transformer架构中的自注意力机制在处理长序列时面临严重的计算和内存瓶颈。尽管可训练的稀疏注意力方法提供了一个有前景的解决方案,但现有方法如NSA引入了过多的额外参数,并破坏了传统的“短序列预训练,长序列微调”工作流程,导致收敛速度慢且难以加速。为了克服这些限制,我们引入了密集-稀疏可切换注意力框架,称为InfLLM-V2。InfLLM-V2是一种可训练的稀疏注意力机制,能够无缝地将模型从短序列适应到长序列。具体而言,InfLLM-V2通过无参数的架构修改重用密集注意力参数,保持短序列和长序列处理之间的一致性。此外,InfLLM-V2通过使用密集注意力处理短输入并平滑过渡到稀疏注意力处理长序列,确保在所有序列长度上的计算效率。为了实现实际加速,我们进一步引入了InfLLM-V2的高效实现,显著减少了计算开销。我们在长上下文理解和链式推理上的实验表明,InfLLM-V2比密集注意力快4倍,同时分别保留了98.1%和99.7%的性能。基于InfLLM-V2框架,我们训练并开源了混合推理模型MiniCPM4.1(https://huggingface.co/openbmb/MiniCPM4.1-8B),为研究社区提供了一个可复现的实现。
基於視覺語言模型(VLM)的圖形用戶界面(GUI)代理在自動化複雜桌面和移動任務方面展現出潛力,但在應用強化學習(RL)時面臨重大挑戰:(1)與GUI環境的多輪交互速度緩慢,影響策略執行;(2)代理與環境之間的高質量交互不足,阻礙策略學習。為應對這些挑戰,我們提出了DART,一個針對GUI代理的解耦式強化學習訓練框架,它以高度解耦的方式協調異構模塊。DART將訓練系統分為四個異步模塊:環境集群、執行服務、數據管理器和訓練器。這一設計實現了非阻塞通信、異步訓練、按執行採樣軌跡以及按工作者模型同步,顯著提升了系統效率:執行階段的GPU利用率提升1.6倍,訓練吞吐量提升1.9倍,環境利用率提升5.5倍。為促進從大量樣本中有效學習,我們引入了一種自適應數據策展方案:(1)預先收集成功軌跡以補充在線採樣中稀疏的成功案例,特別針對挑戰性任務;(2)根據任務難度動態調整執行次數和軌跡長度;(3)選擇性訓練高熵步驟,優先考慮關鍵決策;(4)通過截斷重要性採樣穩定學習,解決策略執行與更新之間的不匹配問題。在OSWorld基準測試中,DART-GUI-7B實現了42.13%的任務成功率,相比基礎模型提升了14.61%,並比開源SOTA高出7.34%。我們將通過computer-use-agents.github.io/dart-gui完全開源我們的訓練框架、數據和模型檢查點,相信這將為代理式強化學習訓練的開源社區做出及時貢獻。
现今的大型语言模型(LLMs)在众多领域中展现出强大的问题解决能力,并且随着模型规模、训练集规模及训练集质量的提升,其性能持续增强,这一点已通过业界广泛的研究与实验得到证实。训练一个前沿模型现今需要消耗数十至数百尧次浮点运算(yottaflops),这无疑是对时间、计算资源及能源的巨大投入。因此,提升预训练效率对于推动下一代更为强大的LLMs的发展至关重要。尽管8位浮点数(FP8)训练已被广泛采用,但向更低精度如4位浮点数(FP4)的过渡,有望在计算速度与资源利用上带来进一步的提升。然而,这一级别的量化对训练稳定性、收敛性及实施提出了挑战,尤其是在长token序列上训练的大规模模型。 本研究提出了一种采用NVFP4格式稳定且精准训练大型语言模型的新方法。该方法整合了随机哈达玛变换(RHT)以限制块级异常值,采用二维量化方案确保前向与反向传播中的表示一致性,利用随机舍入实现无偏梯度估计,并融入了选择性高精度层。我们通过在10万亿token上训练一个120亿参数的模型——这是迄今为止公开记录的最长4位精度训练过程——验证了该方法的有效性。结果显示,采用基于NVFP4的预训练技术训练的模型,其训练损失与下游任务准确率与FP8基线相当。这些发现表明,NVFP4结合我们的训练方法,标志着窄精度LLM训练算法的一大进步。
我們介紹了SIRI(Scaling Iterative Reinforcement Learning with Interleaved Compression),這是一種針對大型推理模型(LRMs)的簡單而有效的強化學習方法,旨在實現更高效且精確的推理。現有研究已觀察到LRMs中存在重複的思維模式,而嘗試減少這些模式往往以性能下降為代價。本文中,我們展示了一種訓練策略,通過在訓練過程中動態調整最大展開長度,迭代地在壓縮與擴展推理預算之間交替,從而克服這一權衡。壓縮階段縮短展開長度,迫使模型在有限上下文中做出精確且有價值的決策,有效減少冗餘標記並提高推理密度。擴展階段則放寬長度限制,為模型提供在長視野設置中探索與規劃的空間。值得注意的是,我們發現每次壓縮-擴展循環後,模型的性能提升,即使其輸出長度減少,穩步推動其接近性能-效率權衡的帕累托前沿。在DeepSeek-R1-Distill-Qwen-1.5B上訓練,SIRI-low在AIME24上的性能提升了43.2%,同時在三次迭代後減少了46.9%的標記使用量,而SIRI-high相比所有其他方法達到了最高準確率(圖1)。我們的研究揭示了在訓練期間週期性振盪LRM輸出截斷長度的潛力,以動態平衡推理中的探索與效率,收斂於兩者之間的最佳“甜蜜點”。我們的模型已公開提供。
測試時擴展(TTS)通過在推理過程中分配額外的計算資源來增強大型語言模型(LLMs)的推理能力。然而,現有方法主要依賴於輸出層面的採樣,而忽視了模型架構的作用。在主流的專家混合(MoE)LLMs中,我們觀察到,改變激活專家的數量可以產生具有穩定準確性的互補解集,這揭示了一個新的且未被充分探索的多樣性來源。基於這一觀察,我們提出了動態專家搜索(DES),這是一種TTS策略,將專家激活提升為搜索空間中的可控維度。DES整合了兩個關鍵組件:(1)動態MoE,它能在推理過程中直接控制專家數量,以無額外成本生成多樣的推理軌跡;(2)專家配置繼承,它在推理路徑內保持一致的專家數量,同時在不同運行間變化,從而平衡搜索過程中的穩定性與多樣性。在MoE架構、驗證器和推理基準(即數學、代碼和知識)上的廣泛實驗表明,DES在無額外成本的情況下,可靠地超越了TTS基線,提升了準確性和穩定性。這些結果凸顯了DES作為一種實用且可擴展的架構感知TTS形式,展示了現代LLMs中結構靈活性如何推動推理能力的進步。
大型语言模型(LLM)代理通过整合规划、记忆、反思和工具使用模块,在解决复杂多步骤任务方面展现出潜力。然而,其复杂的架构也放大了级联故障的脆弱性,即单一根本原因的错误会通过后续决策传播,最终导致任务失败。现有系统缺乏一个能够以模块化和系统化方式全面理解代理错误的框架,因此无法相应地检测这些错误。我们通过三项贡献来填补这一空白。首先,我们引入了AgentErrorTaxonomy,这是一个涵盖记忆、反思、规划、行动和系统级操作的故障模式模块化分类。其次,我们构建了AgentErrorBench,这是首个从ALFWorld、GAIA和WebShop中系统标注的故障轨迹数据集,将错误分析建立在真实世界代理运行的基础上。第三,我们提出了AgentDebug,一个调试框架,能够隔离根本原因故障并提供纠正反馈,使代理能够恢复并迭代改进。在AgentErrorBench上的实验表明,与最强基线相比,AgentDebug在全正确准确率上提高了24%,在步骤准确率上提高了17%。除了检测之外,AgentDebug生成的针对性反馈使LLM代理能够从故障中迭代恢复,在ALFWorld、GAIA和WebShop中的任务成功率相对提升了高达26%。这些结果表明,基于原则的调试是实现更可靠和自适应LLM代理的途径。代码和数据将在https://github.com/ulab-uiuc/AgentDebug上提供。
我们提出了一种新颖的大型语言模型(LLM)蒸馏方法,将其表述为一个约束强化学习问题。尽管近期研究已开始探索将任务特定奖励整合到蒸馏过程中,但现有方法通常依赖于临时性的奖励权重分配。我们提出了一种原则性的优化框架,该框架在最大化任务特定奖励的同时,将教师模型的偏离度约束在指定阈值以下。我们的方法将约束状态增强强化学习适应于蒸馏场景,引入了一种改进的奖励函数,该函数在无需状态增强或部署期间访问教师模型的情况下,仍能保持约束满足的理论保证,并且避免了双重拉格朗日方法的计算开销。通过在数学推理任务上的广泛实验,我们证明了与软拉格朗日松弛基线相比,我们的方法在保持竞争力的任务性能的同时,实现了更好的约束满足率和更优的推理能力。我们的框架为资源受限环境下的奖励感知蒸馏提供了一个理论基础坚实且实际高效的解决方案。
近期进展,如DeepSeek-R1,已表明GRPO算法——一种强化学习(RL)方法,能有效训练大型语言模型(LLMs)及视觉语言模型(VLMs)中的思维链(CoT)推理。本文中,我们剖析了GRPO面临的三大挑战:思维与答案间的梯度耦合、有限并行采样导致的稀疏奖励信号,以及优势估计的不稳定性。为应对这些挑战,我们提出了GRPO-MA,这一方法虽简洁却理论扎实,它通过从每一思维过程生成多答案,实现了更为稳健且高效的优化。理论上,我们证明了随着每思维生成答案数量的增加,思维优势的方差随之降低。实证上,我们的梯度分析验证了此效应,显示GRPO-MA相较于GRPO减少了梯度尖峰。在数学、编程及多样化多模态任务上的实验表明,GRPO-MA显著提升了性能与训练效率。我们的消融研究进一步揭示,增加每思维生成的答案数量持续增强模型表现。
近期,基于推理的大型语言模型(RLMs),尤其是那些通过验证器强化学习训练的模型,在少样本思维链(CoT)下的表现往往不如直接回答。我们利用DeepSeek-R1提供的高质量推理轨迹作为示例,重新审视了这一悖论,发现即使示例是最优的,增加示例数量仍会持续降低准确性。深入分析揭示了导致这一下降的两大机制:(i) 语义误导,即高文本相似性使模型将目标问题视为与示例相同,并逐字复制中间步骤;(ii) 策略转移失败,即模型难以提取有用的推理策略并将其应用于目标问题。基于这些发现,我们引入了“洞察至解决”(I2S),一种顺序测试时程序,它将示例转化为明确、可重用的洞察,并生成针对特定目标的推理轨迹;此外,推理过程可自我优化以确保连贯性和正确性(I2S+)。在多样化的基准测试上的广泛实验表明,I2S和I2S+在开源和闭源模型中均一致优于直接回答和测试时扩展基线。即便是对于GPT模型,我们的方法也大有裨益:在AIME'25上,GPT-4.1提升了+14.0%,o1-mini在AIME上提升了+2.7%,在GPQA上提升了+1.7%,这表明通过“洞察-优化-解决”框架,可以有效地利用上下文示例。
檢索增強生成(Retrieval-Augmented Generation, RAG)旨在通過將回應基於檢索到的文獻來減少大型語言模型(LLMs)中的幻覺現象。然而,即便在提供正確且充分的上下文情況下,基於RAG的LLMs仍會產生幻覺。一系列研究指出,這源於模型如何利用外部上下文與其內部知識之間的不平衡,並且已有幾種方法嘗試量化這些信號以進行幻覺檢測。然而,現有方法需要大量的超參數調整,限制了其泛化能力。我們提出了LUMINA,這是一個新穎的框架,通過上下文-知識信號來檢測RAG系統中的幻覺:外部上下文的利用通過分佈距離來量化,而內部知識的利用則通過追蹤預測標記在變壓器層中的演變來測量。我們進一步引入了一個框架,用於統計驗證這些測量結果。在常見的RAG幻覺基準測試和四個開源LLMs上的實驗表明,LUMINA在AUROC和AUPRC得分上始終保持高水平,在HalluRAG上比先前的基於利用的方法高出最多+13%的AUROC。此外,LUMINA在對檢索質量和模型匹配的放寬假設下仍保持穩健,兼具有效性和實用性。
視頻聯合嵌入預測架構(V-JEPA)通過在潛在空間中預測被遮罩區域,並利用指數移動平均(EMA)更新的教師模型,學習可泛化的即用型視頻表徵。雖然EMA防止了表徵崩潰,但它使可擴展的模型選擇變得複雜,並將教師與學生架構緊密耦合。我們重新審視了遮蔽潛在預測,並證明固定教師模型已足夠。具體而言,我們(i)在V-JEPA遮蔽下,以簡單的像素重建目標訓練目標編碼器,然後(ii)將其凍結並訓練學生模型來預測教師在遮蔽區域的潛在表徵。這形成了一個兩階段、無正則化的方案,我們稱之為SALT(靜態教師非對稱潛在訓練)。SALT將優化解耦為像素重建(教師)和遮蔽潛在預測(學生),提高了透明度、效率和可擴展性,同時保留了表徵在凍結評估下的泛化能力。實證表明,在多樣化的基準測試中,我們的學生模型在凍結骨幹評估下超越了最近提出的V-JEPA 2編碼器。它們還更具計算效率:在相同的預訓練FLOPs下,我們的方法實現了更高的探測準確率,其擴展曲線主導了V-JEPA的準確率-FLOPs帕累托前沿。最後,我們發現學生模型的質量對教師模型的質量表現出顯著的魯棒性:即使使用小型、次優的教師模型,也能產生高性能的學生模型。這表明計算預算應極大程度地傾向於學生模型。這些結果將SALT定位為一種簡單、可擴展且計算高效的替代方案,用於基於EMA的自蒸餾視頻表徵學習。
針對下游任務微調預訓練的大型語言模型(LLMs)是人工智慧部署流程中的關鍵步驟。強化學習(RL)無疑是最為突出的微調方法,促成了許多頂尖LLMs的誕生。相比之下,進化策略(ES)曾在數百萬參數的模型上展現出與RL相媲美的性能,但由於人們對其在大規模模型上可擴展性的悲觀看法,ES逐漸被忽視。在本研究中,我們首次成功實現了將ES擴展至微調LLMs全部參數的嘗試,揭示了ES能夠在數十億參數的搜索空間中高效運作,並在多方面超越現有的RL微調方法,包括樣本效率、對長遠獎勵的耐受性、對不同基礎LLMs的魯棒性、較低的獎勵欺詐傾向,以及跨運行次數的穩定性。因此,本研究為超越當前RL技術的LLM微調開闢了新的研究方向。源代碼已提供於:https://github.com/VsonicV/es-fine-tuning-paper。
随着大型语言模型(LLMs)在科学推理中的应用日益广泛,答案格式的复杂性和等价表达的多样性使得答案验证成为一项关键而具有挑战性的任务。现有的科学领域验证研究存在两大主要局限:(a)缺乏系统化的评估标准和不足的学科覆盖,这阻碍了其全面评估;(b)过度依赖繁琐的规则设计或提示工程,这降低了其在复杂推理场景中的有效性或限制了其跨学科的泛化能力。为解决这些挑战,我们在数据和模型两个层面提出了解决方案。在数据层面,我们构建了SCI-VerifyBench,一个涵盖数学、物理、生物、化学及一般科学问答的跨学科基准。该基准基于真实的LLM响应构建,并通过领域特定的等价转换增强,生成了具有挑战性和现实性的数据。基于模型的标注和专家注释确保了质量和多样性,从而能够严格评估验证能力。在模型层面,我们强调了推理对于验证的重要性,并引入了SCI-Verifier,一个面向科学领域的统一推理增强验证器。通过后训练,SCI-Verifier展示了强大的逻辑推理和等价判断能力,同时保持了简洁稳定的输出。SCI-VerifyBench与SCI-Verifier共同为科学验证提供了一个原则性的框架,不仅提供了系统化的评估,还增强了LLMs在科学领域中的可靠性和适用性。
人類反饋在對齊大型語言模型(LLMs)與人類偏好方面發揮著關鍵作用。然而,此類反饋往往存在噪聲或不一致性,這可能降低獎勵模型的質量並阻礙對齊效果。儘管已提出多種自動化數據清洗方法以緩解此問題,但對其有效性和泛化能力的系統性評估仍顯不足。為彌補這一空白,我們首次引入了一個全面的基準測試,用於評估在LLM對齊背景下的13種偏好數據清洗方法。PrefCleanBench提供了一個標準化協議,以評估清洗策略在對齊性能及跨多樣數據集、模型架構和優化算法上的泛化能力。通過統一並嚴格比較這些方法,我們揭示了決定數據清洗在對齊任務中成功的關鍵因素。此基準測試為通過提升數據質量來改進LLM對齊的系統性和可重現性方法奠定了基礎,凸顯了數據預處理在負責任的人工智能開發中至關重要但尚未充分探索的角色。我們發布了所有方法的模塊化實現,以促進進一步研究:https://github.com/deeplearning-wisc/PrefCleanBench。
掩碼擴散語言模型(MDLMs)近期作為自回歸(AR)語言模型的一種有前景的替代方案嶄露頭角,其具備並行解碼、靈活的生成順序以及可能更少的推理步驟等特性。儘管存在這些優勢,針對MDLMs的解碼策略和強化學習(RL)算法仍待深入探索。一種直觀的方法是直接將AR模型中成熟的技術遷移至MDLMs。然而,這立即引發了一個疑問:這種簡單的遷移是否真的最優?例如,1)塊狀和半自回歸解碼策略並未在MDLMs的訓練過程中採用,為何它們在推理時卻優於全擴散式解碼?2)將為AR模型設計的RL算法直接應用於MDLMs會出現訓練與推理不一致的問題,因為MDLMs的解碼是非因果性的(並行)。這導致了rollout軌跡與優化軌跡之間的不一致。為應對這些挑戰,我們提出了EOS早期拒絕(EOSER)和遞增步長(ASS)解碼調度器,它們釋放了MDLMs進行全擴散式解碼的潛力,以更少的解碼步驟實現了競爭性的性能。此外,我們引入了用於馴服MDLMs的一致性軌跡群組相對策略優化(CJ-GRPO),它強調rollout軌跡與優化軌跡之間的一致性,並減少了由跳步優化引起的優化誤差。我們在LLaDA-8B-Instruct上對數學和規劃基準等推理任務進行了廣泛實驗。結果表明,所提出的EOSER和ASS機制,結合CJ-GRPO,在有效且高效地馴服MDLMs方面展現出顯著潛力。代碼:https://github.com/yjyddq/EOSER-ASS-RL。
我們推出了DafnyCOMP,這是一個用於評估大型語言模型(LLMs)在Dafny中進行組合式規格生成能力的基準測試。與以往專注於單一函數任務的基準不同,DafnyCOMP針對的是由多個相互依賴的函數組成的程序,這要求模型能夠跨越組件邊界進行推理。該基準包含300個自動合成的多函數程序。我們評估了多種最先進的LLM家族,發現它們在單一函數驗證上表現良好,但在組合任務上的性能卻急劇下降。分析揭示了跨函數推理中的系統性失敗,包括脆弱的規格、實現與證明之間的不一致,以及不穩定的推理。因此,DafnyCOMP提供了一種診斷工具,用於衡量LLMs在生成可靠、可驗證且組合式代碼方面的進展。
視覺語言模型(VLMs)能夠通過文本交互靈活處理多種視覺任務。儘管在語義理解方面取得了成功,包括GPT-5在內的最新VLMs在從2D輸入理解3D方面仍存在困難。另一方面,專業的純視覺模型在度量深度估計這一關鍵3D理解任務上達到了超人的準確度。然而,這些模型需要特定任務的架構和損失函數。這種差異促使我們提出問題:VLMs能否在不改變架構或損失函數的情況下達到專家級的準確度?我們以逐像素度量深度估計為代表性任務,並證明答案是肯定的!令人驚訝的是,綜合分析表明,基於文本的稀疏標籤監督微調足以讓VLMs解鎖強大的3D理解能力,無需密集預測頭或複雜的回歸/正則化損失函數。VLMs的瓶頸實際上在於像素參考和跨數據集相機模糊性,我們通過視覺提示和內在條件增強來解決這些問題。使用更小的模型,我們的方法DepthLM超越了大多數先進VLMs的準確度,使其首次與純視覺模型相媲美。有趣的是,在訓練過程中沒有明確強制的情況下,使用DepthLM訓練的VLMs自然避免了過度平滑,在邊界區域的飛點比純視覺模型少得多。DepthLM的簡潔性還使得單個VLM能夠涵蓋度量深度之外的各種3D任務。我們的代碼和模型將在以下鏈接中發布。
多主體圖像生成旨在將用戶提供的主體合成於單一圖像中,同時保持主體的真實性、確保提示一致性,並符合人類審美偏好。然而,現有方法,尤其是基於上下文學習範式的方法,受限於其對簡單重建目標的依賴,導致嚴重的屬性洩漏,損害了主體的真實性,且未能與細膩的人類偏好保持一致。為解決這一問題,我們提出了MultiCrafter框架,以確保高保真且符合偏好的生成。首先,我們發現屬性洩漏的根本原因在於生成過程中不同主體之間的注意力顯著糾纏。因此,我們引入了顯式的位置監督,明確分離每個主體的注意力區域,有效緩解了屬性洩漏。為了使模型能夠在各種場景中準確規劃不同主體的注意力區域,我們採用了專家混合架構來增強模型的能力,使不同專家專注於不同場景。最後,我們設計了一種新穎的在線強化學習框架,使模型與人類偏好保持一致,該框架包含一個評分機制,用於準確評估多主體的真實性,以及一個針對MoE架構量身定制的更穩定的訓練策略。實驗驗證了我們的框架在顯著提升主體真實性的同時,更好地與人類偏好保持一致。
現有的文本到圖像擴散模型在生成高質量圖像方面表現出色,但在擴展至高分辨率(如4K圖像生成)時面臨顯著的效率挑戰。雖然先前的研究在多個方面加速了擴散模型,但很少處理潛在空間內固有的冗餘問題。為彌補這一差距,本文提出了DC-Gen,這是一個通過利用深度壓縮潛在空間來加速文本到圖像擴散模型的通用框架。DC-Gen並非採用成本高昂的從頭訓練方法,而是使用高效的訓練後處理流程來保持基礎模型的質量。這一範式中的關鍵挑戰在於基礎模型的潛在空間與深度壓縮潛在空間之間的表示差距,這可能導致直接微調時的不穩定性。為克服這一問題,DC-Gen首先通過輕量級的嵌入對齊訓練來彌合表示差距。一旦潛在嵌入對齊,僅需少量的LoRA微調即可釋放基礎模型的固有生成質量。我們在SANA和FLUX.1-Krea上驗證了DC-Gen的有效性。由此產生的DC-Gen-SANA和DC-Gen-FLUX模型在保持與基礎模型相當質量的同時,實現了顯著的加速。具體而言,DC-Gen-FLUX在NVIDIA H100 GPU上將4K圖像生成的延遲降低了53倍。結合NVFP4 SVDQuant,DC-Gen-FLUX在單個NVIDIA 5090 GPU上僅需3.5秒即可生成一張4K圖像,相比基礎FLUX.1-Krea模型,總延遲減少了138倍。代碼:https://github.com/dc-ai-projects/DC-Gen。
基於搜索增強的大型語言模型(LLMs)在處理複雜推理任務時常面臨挑戰,原因在於多跳檢索效率低下及推理能力有限。我們提出了AceSearcher,這是一種協同自我對弈框架,它訓練單一大型語言模型在兩個角色間切換:一個是將複雜查詢分解的分解器,另一個是整合檢索上下文以生成答案的解答器。AceSearcher結合了對多樣化搜索、推理及分解任務的監督微調,以及針對最終答案準確率優化的強化學習微調,從而無需中間註解。在涵蓋10個數據集的三項推理密集型任務上的廣泛實驗表明,AceSearcher超越了現有最先進的基線模型,平均精確匹配率提升了7.6%。值得注意的是,在文檔級金融推理任務上,AceSearcher-32B以不到DeepSeek-V3模型5%的參數量,達到了與之相當的性能。即使在較小規模(1.5B和8B)下,AceSearcher也經常超越參數量多達9倍的現有搜索增強型LLMs,凸顯了其在解決複雜推理任務上的卓越效率與效能。我們的代碼將發佈於https://github.com/ritaranx/AceSearcher 和 https://huggingface.co/AceSearcher。
自迴歸(AR)模型在圖像生成領域展現出巨大潛力,然而連續token的AR變體往往落後於潛在擴散和掩碼生成模型。其核心問題在於VAE潛變量中的異質性方差,這在AR解碼過程中,尤其是在無分類器指導(CFG)下,會被放大,可能導致方差崩潰。為解決這一問題,我們提出了SphereAR。其核心設計是將所有AR輸入和輸出——包括CFG之後的——約束在固定半徑的超球面上(恆定ℓ₂範數),並利用超球面VAE。我們的理論分析表明,超球面約束消除了尺度分量(方差崩潰的主要原因),從而穩定AR解碼。在ImageNet生成任務中,SphereAR-H(943M)為AR模型設定了新的技術標準,達到了FID 1.34。即使在較小規模下,SphereAR-L(479M)也達到了FID 1.54,SphereAR-B(208M)達到了1.92,匹配或超越了如MAR-H(943M, 1.55)和VAR-d30(2B, 1.92)等更大規模的基線模型。據我們所知,這是首次純粹基於下一個token的AR圖像生成器,在光柵順序下,在相當參數規模上超越了擴散和掩碼生成模型。
長視頻理解對於當前的巨量視頻-語言模型(LVLMs)而言仍具挑戰性,這源於長時序理解與細緻空間感知之間的矛盾。採用均勻幀採樣機制的LVLMs,即以相同幀尺寸和固定採樣率進行採樣,不可避免地會犧牲時序線索或空間細節,導致次優解。為緩解這一困境,我們提出了LOVE-R1模型,該模型能夠自適應地放大視頻片段。模型首先接收高密度採樣但分辨率較低的幀。若需某些空間細節,模型可基於其推理放大感興趣的片段,直至獲取關鍵視覺信息。整個過程實現為多步推理。為訓練推理能力,我們首先在收集的38k高質量CoT數據上微調模型,並通過解耦的強化微調進行增強。由於結果獎勵無法提供細粒度的過程監督,我們將多步推理解耦為多個單步推理,並顯式優化內部放大能力。在長視頻理解基準測試中,採用慢-快自適應幀採樣機制的模型在採樣密度與幀分辨率之間取得了良好平衡,LOVE-R1在四個常見長視頻理解基準上平均超越我們的基線Qwen2.5-VL 3.1個百分點。
偏好優化對於使大型語言模型(LLMs)與人類價值觀和意圖保持一致至關重要。這一過程中的一個重大挑戰是預先收集的離線偏好數據與不斷演變的模型策略之間的分佈不匹配。現有方法嘗試通過靜態啟發式或解耦的在線採樣策略來縮小這一差距,但它們往往無法適應模型的動態學習狀態。為彌合這一差距,我們提出了元加權自適應偏好優化(MetaAPO),這是一種新穎的框架,能夠動態地將數據生成與模型訓練相結合。MetaAPO採用一個輕量級的元學習器作為“對齊差距估計器”,來評估在線採樣相對於離線數據的潛在收益。這指導了有針對性的在線生成,並為優化目標分配了樣本級別的元權重,從而動態平衡在線和離線數據的質量與分佈。在AlpacaEval 2、Arena-Hard和MT-Bench上的實驗表明,MetaAPO在各種設置下始終優於現有的偏好優化方法,同時減少了42%的在線註釋成本。
網頁轉程式碼任務要求模型能夠理解網頁的視覺呈現並生成相應的程式碼。然而,現有的基準測試主要集中於靜態截圖轉程式碼任務,從而忽視了現實世界網頁應用中至關重要的動態互動。為解決這一侷限,本文引入了IWR-Bench,這是一個新穎的基準測試,用於評估大型視覺語言模型(LVLMs)在從影片中重建互動網頁的能力。IWR-Bench包含來自100個真實網站的113個精心策劃的任務,涵蓋1,001個動作,並展示了多樣的互動複雜性(如網頁遊戲)、視覺風格和領域。與標準的網頁開發實踐保持一致,每個任務不僅包括使用者互動影片,還包含所有爬取的靜態資源(如圖片、影片)。該基準測試評估模型在兩個基本挑戰上的表現:從影片和資源中推斷互動邏輯的全面多模態推理,以及將此邏輯轉化為功能性程式碼的高級程式碼生成。採用代理作為評判框架的綜合指標系統,自動評估生成網頁的功能正確性和視覺保真度。對28個LVLMs的廣泛實驗揭示了一個重大挑戰:最佳模型的總體得分僅為36.35%,其中功能正確性(24.39% IFS)顯著落後於視覺保真度(64.25% VFS)。這些結果突顯了當前模型在推理時間動態性和合成事件驅動邏輯能力上的關鍵限制,確立了IWR-Bench作為視覺語言研究的一個具有挑戰性的前沿。基準測試和評估程式碼將公開提供。程式碼可在https://github.com/L-O-I/IWR-Bench獲取。
強化學習(Reinforcement Learning, RL)已成為推動大型語言模型(Large Language Models, LLMs)發展的核心範式,其中預訓練與RL後訓練共享相同的對數似然公式。與此相對,近期針對擴散模型的RL方法,尤其是去噪擴散策略優化(Denoising Diffusion Policy Optimization, DDPO),其優化目標與預訓練目標——分數/流匹配損失——有所不同。在本研究中,我們建立了一種新穎的理論分析:DDPO實質上是一種帶有噪聲目標的分數/流匹配的隱式形式,這增加了方差並減緩了收斂速度。基於此分析,我們引入了優勢加權匹配(Advantage Weighted Matching, AWM),這是一種針對擴散模型的策略梯度方法。它採用與預訓練相同的分數/流匹配損失來獲得一個低方差的目標,並根據每個樣本的優勢進行重新加權。實際上,AWM提升了高獎勵樣本的影響力,同時抑制了低獎勵樣本,同時保持建模目標與預訓練一致。這在概念和實踐上統一了預訓練與RL,與策略梯度理論保持一致,降低了方差,並實現了更快的收斂。這一簡潔而有效的設計帶來了顯著的益處:在GenEval、OCR和PickScore基準測試中,當應用於Stable Diffusion 3.5 Medium和FLUX時,AWM相比於Flow-GRPO(基於DDPO構建)實現了高達24倍的加速,且未損害生成質量。代碼可在https://github.com/scxue/advantage_weighted_matching獲取。
結構化圖像(如圖表和幾何圖表)對於多模態大型語言模型(MLLMs)仍然具有挑戰性,因為感知上的失誤可能會導致錯誤的結論。中間視覺線索可以引導推理;然而,現有的基於線索的方法受限於低保真度的圖像處理和線性、僵化的推理模式,限制了它們在複雜結構化圖像任務上的有效性。在本文中,我們提出了PixelCraft,這是一個用於高保真度圖像處理和靈活視覺推理的新穎多代理系統。該系統包括一個調度器、一個規劃器、一個推理器、批評者和一組視覺工具代理。為了實現高保真度的處理,我們構建了一個高質量的語料庫,並將一個MLLM微調為一個基礎模型,其像素級定位與傳統計算機視覺(CV)算法在工具代理中集成。在此基礎上,PixelCraft通過動態的三階段工作流程(工具選擇、代理討論和自我批評)促進靈活的視覺推理。此外,與之前簡單附加歷史圖像的線性推理模式不同,PixelCraft維護了一個圖像記憶,使規劃器能夠自適應地重新審視早期的視覺步驟,探索替代的推理分支,並在討論過程中動態調整推理軌跡。在具有挑戰性的圖表和幾何基準上的大量實驗表明,PixelCraft顯著提高了高級MLLMs的視覺推理性能,為結構化圖像推理設定了新標準。我們的代碼將在https://github.com/microsoft/PixelCraft上提供。
追求能夠掌握複雜環境的人工智慧代理已取得顯著成功,然而現有的深度強化學習方法往往依賴於大量的經驗,並將其知識不透明地編碼於神經網絡權重中。我們提出了一種不同的範式,其中代理通過推理和規劃來學習遊戲。我們介紹了「Cogito, ergo ludo」(CEL),這是一種新穎的代理架構,利用大型語言模型(LLM)來建立對其環境機制及自身策略的明確、基於語言的理解。從一無所知的初始狀態(僅知動作集)出發,CEL在互動與反思的循環中運作。每輪遊戲後,代理分析其完整軌跡,進行兩個並行的學習過程:規則歸納,即精煉其對環境動態的明確模型;以及策略與戰術手冊總結,即將經驗提煉為可操作的戰略手冊。我們在多樣的網格世界任務(如掃雷、冰湖和倉庫番)上評估CEL,並展示CEL代理能通過自主發現遊戲規則並從稀疏獎勵中發展有效策略,成功掌握這些遊戲。消融研究證實,迭代過程對持續學習至關重要。我們的工作展示了一條通向更通用且可解釋的代理之路,這些代理不僅能有效行動,還能通過對原始經驗的明確推理,建立一個透明且不斷改進的世界模型。
隨著基於大型語言模型(LLM)的代理在外部環境中的廣泛部署,新的攻擊面也隨之出現,為敵對操縱提供了機會。其中一個主要威脅是間接提示注入,攻擊者將惡意指令嵌入外部環境的輸出中,導致代理將其解釋並執行,彷彿這些指令是合法的提示。雖然先前的研究主要集中在純文本注入攻擊上,但我們發現了一個重要卻未被充分探索的脆弱性:LLM對結構化聊天模板的依賴性,以及其易受多輪對話中說服性上下文操縱的影響。為此,我們提出了ChatInject,這是一種將惡意負載格式化以模仿原生聊天模板的攻擊方式,從而利用模型固有的指令遵循傾向。在此基礎上,我們開發了一種基於說服的多輪變體,通過多輪對話引導代理接受並執行原本可疑的操作。通過對前沿LLM的全面實驗,我們展示了三個關鍵發現:(1)ChatInject的平均攻擊成功率顯著高於傳統的提示注入方法,在AgentDojo上從5.18%提升至32.05%,在InjecAgent上從15.13%提升至45.90%,其中多輪對話在InjecAgent上的平均成功率達到52.33%,表現尤為突出;(2)基於聊天模板的負載在模型間具有強遷移性,即使面對未知模板結構的閉源LLM,仍能保持有效性;(3)現有的基於提示的防禦措施對這種攻擊方式,尤其是多輪變體,大多無效。這些發現揭示了當前代理系統中的脆弱性。
大型語言模型(LLMs)在文本到SQL任務中展現出日益增強的效能。然而,另一個密切相關的問題——跨系統SQL轉換(即SQL-to-SQL),即將為一個數據庫系統(如MySQL)編寫的查詢轉換為適用於另一系統(如ClickHouse)的等效查詢,具有極大的實際重要性,卻仍未被充分探索。現有的SQL基準測試並不適合用於SQL-to-SQL評估,原因在於它們(1)僅限於少數數據庫系統(通常僅SQLite),且(2)無法涵蓋許多系統特有的SQL方言(例如,自定義函數、數據類型和語法規則)。因此,本文介紹了PARROT,一個專為跨系統SQL轉換設計的實用且真實的基準測試。PARROT包含來自38個開源基準測試和真實商業服務的598對轉換樣本,特別設計來挑戰系統特定的SQL理解能力(例如,LLMs在此類任務上的平均準確率低於38.53%)。我們還提供了多個基準測試變體,包括包含28,003個轉換的PARROT-Diverse(用於廣泛的語法測試)和包含5,306個代表性樣本的PARROT-Simple(用於集中的壓力測試),覆蓋了22個生產級數據庫系統。為推動未來研究,我們在以下網址發布了公開排行榜和源代碼:https://code4db.github.io/parrot-bench/。
本文介紹了MathBode,一種針對大型語言模型(LLMs)數學推理能力的動態診斷方法。與一次性準確率不同,MathBode將每個參數化問題視為一個系統:我們對單一參數進行正弦驅動,並擬合模型輸出與精確解的一階諧波響應。這產生了可解釋的、頻率解析的指標——增益(幅度跟踪)和相位(滯後)——它們構成了Bode風格的指紋。在五種閉式家族(線性求解、比率/飽和、複利、2x2線性系統、相似三角形)中,該診斷揭示了系統性的低通行為和增長的相位滯後,這些是僅靠準確率無法發現的。我們將多個模型與一個符號基線進行比較,該基線用於校準儀器(G約為1,φ約為0)。結果在動態特性上區分了前沿模型與中端模型,提供了一個緊湊、可重現的協議,該協議通過可操作的推理保真度和一致性測量來補充標準基準。我們開源了數據集和代碼,以促進進一步的研究和採用。
統一視頻建模結合生成與理解能力日益重要,但面臨兩大關鍵挑戰:在基於流的生成過程中,由於文本與視覺標記的不平衡以及跨模態注意力在流軌跡上的均勻性限制,難以保持語義忠實性;以及如何高效地將以圖像為中心的多模態大語言模型(MLLMs)擴展至視頻領域,而無需進行成本高昂的重新訓練。我們提出了UniVid,這是一種統一架構,通過輕量級適配器將MLLM與擴散解碼器耦合,實現了視頻理解與生成的雙重功能。我們引入了溫度模態對齊技術以提升提示遵循度,並採用金字塔反射機制通過動態關鍵幀選擇實現高效的時序推理。在標準基準上的大量實驗表明,UniVid達到了最先進的性能,與EasyAnimateV5.1相比,在VBench-Long總分上提升了2.2%,在MSVD-QA和ActivityNet-QA上分別比之前最佳的7B基線模型提高了1.0%和3.3%的準確率。
大型推理模型(LRMs)通過思維鏈(CoT)推理在複雜問題解決中展現了卓越的能力。然而,CoT的多步驟特性引入了超越傳統語言模型對齊的新安全挑戰。我們發現當前安全CoT調優方法中存在一種失效模式:雪球效應,即微小的推理偏差在整個思維過程中逐漸放大,導致有害的順從或過度的拒絕。這種效應源於模型被訓練模仿完美的推理腳本,而未能學會自我糾正。為解決這一限制,我們提出了AdvChain,這是一種通過對抗性CoT調優來教導模型動態自我糾正的對齊範式。我們的方法包括構建包含誘惑-糾正和猶豫-糾正樣本的數據集,使模型學會從有害的推理偏差和不必要的謹慎中恢復。大量實驗表明,AdvChain顯著增強了對越獄攻擊和CoT劫持的魯棒性,同時大幅減少了對良性提示的過度拒絕,在不損害推理能力的情況下實現了更優的安全-效用平衡。我們的工作為構建更強大、更可靠的推理模型開闢了新的方向。
大型多模態模型(LMMs)和基於雲端的AI代理的快速進展,正將人機協作轉變為雙向、多模態的互動。然而,現有的編解碼器仍主要針對單模態、單向通信進行優化,導致在傳統的壓縮-傳輸-重建流程中反覆出現質量下降。為解決這一限制,我們提出了UniMIC,一個基於統一令牌的多模態互動編碼框架,旨在橋接邊緣設備與雲端AI代理。UniMIC不再傳輸原始像素或純文本,而是採用緊湊的令牌化表示作為通信媒介,既實現了高效的低比特率傳輸,又保持了與LMMs的兼容性。為進一步提升壓縮效率,UniMIC引入了輕量級基於Transformer的熵模型,這些模型根據不同場景(通用、掩碼、文本條件)進行專門設計,有效減少了令牌間的冗餘。在文本到圖像生成、文本引導的修復、擴展以及視覺問答等廣泛實驗中,UniMIC展現了顯著的比特率節省,即便在超低比特率(<0.05bpp)下仍保持魯棒性,且不影響下游任務的性能。這些成果確立了UniMIC作為下一代多模態互動通信的實用且前瞻性範式。
可擴展性推動了生成模型的最新進展,但在對抗學習領域,其原理仍未得到充分探索。我們通過兩種在其他類型生成模型中已被證明有效的設計選擇,來研究生成對抗網絡(GANs)的可擴展性:在緊湊的變分自編碼器潛在空間中進行訓練,以及採用純基於Transformer的生成器和判別器。在潛在空間中訓練既能保持感知保真度,又能實現高效計算,這種效率與純Transformer模型自然契合,後者的性能隨計算預算的增加而提升。基於這些選擇,我們分析了在簡單擴展GANs時出現的故障模式。具體而言,我們發現了生成器早期層利用不足以及網絡擴展時優化不穩定等問題。因此,我們提供了簡單且適合擴展的解決方案,如輕量級的中間監督和寬度感知的學習率調整。我們的實驗表明,GAT——一種純基於Transformer且工作在潛在空間的GAN,能夠在廣泛的容量範圍內(從S到XL)輕鬆可靠地訓練。此外,GAT-XL/2在ImageNet-256上僅用40個epoch就達到了最先進的單步、類條件生成性能(FID為2.96),比強基線少用了6倍的epoch。
面向目标的語言引導導航要求智能體具備強大的探索能力,以便在未知環境中無需逐步指令即可導航至指定目標。現有方法往往僅依賴最短路徑軌跡,缺乏有效的探索先驗來訓練導航智能體。為應對上述挑戰,我們提出了SID,一種帶有自我改進示範的面向目標語言引導導航學習方法。具體而言,SID首先從環境中採樣的最短路徑數據上學習初始智能體,隨後利用該智能體生成新穎的探索軌跡。這些新穎的探索軌跡提供了具有更強探索策略的示範,用於訓練更優的智能體,而該智能體又會產生更高質量的示範,供下一輪訓練使用。我們展示了這一迭代自我改進的流程能輕鬆適應新環境,且生成的示範可跨多種語言引導導航任務轉移,從而提升多樣化面向目標導航任務的性能上限。大量實驗表明,SID顯著增強了導航智能體的探索能力和泛化能力。最終的智能體在面向目標的語言引導導航任務(包括REVERIE、SOON)上取得了新的最優性能,特別是在SOON的未見驗證集上達到了50.9%的成功率,較先前領先方法提升了13.9%。
測試驅動開發(Test-Driven Development, TDD)是一種廣泛採用的軟體工程實踐,要求開發者在編寫代碼的同時創建並執行測試,以確保軟體行為被持續驗證與精進。在「氛圍編碼」時代,開發者越來越多地通過指定高層意圖將代碼編寫任務委託給大型語言模型(LLMs),TDD因此變得更加關鍵,因為測試案例作為可執行的規格,能夠明確地定義並驗證預期功能,這超越了自然語言描述和代碼上下文所能傳達的範圍。儘管在TDD框架下的氛圍編碼前景看好,但仍面臨三大挑戰:(1) 選擇一個小而有效的測試套件,以提高生成準確性並控制執行工作量;(2) 有效檢索相關代碼等上下文;(3) 系統化地利用測試反饋進行有效的代碼精煉。為應對這些挑戰,我們引入了TENET,這是一個在TDD設定下為複雜現實世界代碼庫生成函數的LLM代理。TENET具備三大組件:(1) 一種新穎的測試框架機制,選擇簡潔的測試套件以最大化目標使用場景的多樣性;(2) 一套定制的代理工具集,能夠高效檢索相關代碼並進行互動式調試;(3) 基於反思的精煉工作流程,迭代分析失敗、補充上下文並應用代碼精煉。TENET在RepoCod和RepoEval基準測試中分別達到了69.08%和81.77%的Pass@1成績,分別比最佳代理基線高出9.49和2.17個百分點。此外,這是首次在倉庫級別上下文中研究測試驅動的代碼生成,探討了測試套件的不同方面如何影響TDD設定下LLM代理的性能。
理解大型語言模型(LLMs)如何執行複雜推理及其失敗機制,是解釋性研究中的一大挑戰。為提供可測量的幾何分析視角,我們定義了「推理流形」這一概念,這是由所有正確推理生成對應的內部表徵所形成的潛在低維幾何結構。此結構可被視為模型已學會成功解決特定任務的有效思維路徑的體現。基於這一概念,我們構建了REMA框架,該框架通過定量比較錯誤與正確推理樣本對應的內部模型表徵的空間關係,來解釋失敗的根源。具體而言,REMA首先通過計算每個錯誤表徵與由正確表徵近似形成的流形之間的k近鄰距離,量化其幾何偏差,從而提供統一的失敗信號。隨後,它通過在模型各層追蹤這一偏差指標,並將其與正確表徵的內部波動基線進行比較,定位這些偏差首次顯著的發散點,從而識別推理鏈開始偏離軌跡的位置。我們在多樣化的語言及多模態模型與任務上的廣泛實驗,證明了推理流形的低維特性以及錯誤與正確推理表徵之間的高度可分離性。結果也驗證了REMA框架在分析推理失敗起源方面的有效性。這項研究將抽象的推理失敗與表徵中的可測量幾何偏差相聯繫,為深入理解與診斷黑箱模型的內部計算過程提供了新途徑。
配對的RGB-熱成像數據對於視覺-熱成像傳感器融合及跨模態任務至關重要,這些任務包括多模態圖像對齊與檢索等重要應用。然而,同步且校準的RGB-熱成像圖像對的稀缺性,成爲這些領域進展的主要障礙。爲克服這一挑戰,RGB至熱成像(RGB-T)圖像轉換技術應運而生,它能夠從豐富的RGB數據集中合成熱成像圖像,用於訓練目的。在本研究中,我們提出了ThermalGen,一種基於自適應流的生成模型,用於RGB-T圖像轉換,該模型融合了RGB圖像條件架構和風格解耦機制。爲支持大規模訓練,我們整理了八個公開的衛星-航空、航空及地面RGB-T配對數據集,並引入了三個新的大規模衛星-航空RGB-T數據集——DJI-day、Bosonplus-day和Bosonplus-night,這些數據集捕捉了不同時間、傳感器類型和地理區域的圖像。在多個RGB-T基準上的廣泛評估表明,ThermalGen在轉換性能上與現有的基於GAN和擴散的方法相當或更優。據我們所知,ThermalGen是首個能夠合成反映顯著視角變化、傳感器特性和環境條件變化的熱成像圖像的RGB-T圖像轉換模型。項目頁面:http://xjh19971.github.io/ThermalGen
人工智慧(AI)系統,尤其是大型語言模型(LLMs),正日益被應用於科學創意生成等創造性任務中,這構成了從訓練數據中進行泛化的一種形式,而現有的概念框架尚未對此進行探討。儘管其與組合泛化(CG)有相似之處,但組合創造力(CC)是一種開放式的能力。我們提出了一個理論框架和算法任務,用以評估輸出的新穎性和實用性程度,而非對照固定目標來評估其準確性或正確性,這與CC的開放性本質相悖。基於此,我們做出了幾項重要的實證貢獻:(1)我們首次洞察了LLMs創造力的規模化行為。(2)我們發現,在固定的計算預算下,存在著模型深度和寬度對創造能力的最佳化配置。(3)我們發現,LLMs在生成新穎科學創意方面表現出色,但在確保其實際可行性方面卻存在困難,這一“構想-執行”差距可能源於創造力算法中更為基礎的新穎性與實用性之間的權衡特性。重要的是,這種權衡即使在規模化後依然存在,這對LLMs在當前形式下的長期創造潛力提出了質疑。總之,我們的概念框架與實證發現為理解和提升現代AI模型的創造力奠定了基礎,架起了人類智慧與機器智慧之間的橋樑。
維基百科作為全球最大的開放知識庫,被廣泛使用,並成為訓練大型語言模型(LLMs)和檢索增強生成(RAG)系統的關鍵資源。因此,確保其準確性至關重要。但維基百科的準確性如何,我們又該如何提升它呢? 我們聚焦於不一致性這一特定類型的事實錯誤,並引入了語料庫層級不一致性檢測任務。我們提出了CLAIRE,這是一個結合了LLM推理與檢索的智能系統,旨在揭示潛在的不一致聲明,並提供上下文證據供人工審查。在一項有經驗的維基百科編輯參與的用戶研究中,87.5%的參與者表示使用CLAIRE後信心提升,參與者在相同時間內發現的不一致性增加了64.7%。 結合CLAIRE與人工標註,我們貢獻了WIKICOLLIDE,這是首個真實維基百科不一致性的基準測試集。通過隨機抽樣與CLAIRE輔助分析,我們發現至少有3.3%的英文維基百科事實與其他事實相矛盾,這些不一致性影響了7.3%的FEVEROUS和4.0%的AmbigQA示例。在該數據集上對強基線模型進行基準測試顯示,仍有顯著提升空間:最佳全自動系統的AUROC僅為75.1%。 我們的研究結果表明,矛盾是維基百科中可量化的組成部分,而基於LLM的系統如CLAIRE,能夠為編輯者提供實用工具,幫助他們大規模提升知識的一致性。
預測人類移動性本質上具有挑戰性,這源於複雜的長程依賴性和多尺度週期性行為。為此,我們提出了RHYTHM(基於分層時間標記化的人類移動性推理),這是一個統一框架,利用大型語言模型(LLMs)作為通用時空預測器和軌跡推理器。在方法論上,RHYTHM採用時間標記化技術,將每條軌跡劃分為每日片段,並將其編碼為帶有分層注意力的離散標記,從而捕捉每日和每週的依賴關係,顯著縮短序列長度同時保留週期性信息。此外,我們通過預先計算的提示嵌入來豐富標記表示,這些嵌入針對軌跡片段和預測目標,並通過凍結的LLM將這些組合嵌入反饋回LLM主幹,以捕捉複雜的相互依賴性。在計算層面,RHYTHM凍結了預訓練LLM的主幹,以降低注意力複雜度和內存成本。我們使用三個真實世界數據集對比評估了我們的模型與最先進的方法。值得注意的是,RHYTHM在整體準確率上提升了2.4%,在週末提高了5.0%,並減少了24.6%的訓練時間。代碼公開於https://github.com/he-h/rhythm。
在直接從生活中進行編輯時,攝影師們發現同時看到藍色和天空過於困難。攝影師兼策展人Szarkowski敏銳地揭示了普遍視覺理解與美學視覺理解之間的一個顯著差距:前者專注於識別圖像中的事實元素(天空),而後者則超越了這種對象識別,將其視為一種美學成分——純粹的色塊(藍色)。這種普遍(檢測、定位等)與美學(色彩、光影、構圖等)視覺理解之間的根本區別,對多模態大語言模型(MLLMs)提出了重大挑戰。儘管近期的一些工作已進行了初步探索,但它們往往侷限於普遍且基本的美學常識。因此,在現實場景中(圖1),它們常常力不從心,這些場景需要廣泛的專業知識——包括攝影技巧、照片前後期處理知識等,以提供詳細的分析和描述。為了從根本上提升MLLMs的美學理解能力,我們首先引入了一個新穎的數據集PhotoCritique,該數據集源自專業攝影師和愛好者之間的廣泛討論,並以其大規模、專業性和多樣性為特徵。接著,為了更好地從PhotoCritique中學習視覺美學,我們進一步提出了一種新模型PhotoEye,該模型採用了一種語言引導的多視角視覺融合機制,從多個角度理解圖像美學。最後,我們提出了一個新基準PhotoBench,這是一個全面且專業的美學視覺理解基準。在現有基準和PhotoBench上,我們的模型展現出相較於現有模型的明顯優勢。
在資訊過載的當下,簡明扼要地總結長篇文件的能力日益重要,然而針對西班牙語文件,尤其是法律領域的此類摘要卻顯著缺乏。本研究介紹了BOE-XSUM,這是一個精心整理的數據集,包含3,648份來自西班牙《國家官方公報》(Boletín Oficial del Estado, BOE)文件的簡明易懂摘要。數據集中的每一條目均包含一份簡短摘要、原文及其文件類型標籤。我們評估了在BOE-XSUM上微調的中等規模大型語言模型(LLMs)的性能,並將其與零樣本設置下的通用生成模型進行了比較。結果顯示,經過微調的模型顯著優於非專業化模型。值得注意的是,表現最佳的模型——BERTIN GPT-J 6B(32位精度)——相較於頂尖的零樣本模型DeepSeek-R1,性能提升了24%(準確率分別為41.6%對33.5%)。
本文介紹了BPMN Assistant,這是一款利用大型語言模型(LLMs)進行基於自然語言的BPMN圖表創建與編輯的工具。為提升流程修改的準確性,我們引入了一種專門的基於JSON的結構化表示法,作為直接處理XML的替代方案。流程生成質量通過圖編輯距離(GED)和相對圖編輯距離(RGED)進行評估,而編輯性能則採用二元成功指標進行衡量。結果顯示,在生成方面,JSON與XML達到了相似的相似度分數,但JSON提供了更高的可靠性、更快的處理速度以及顯著更高的編輯成功率。我們探討了關鍵的權衡、限制及未來改進方向。該工具的實現可於https://github.com/jtlicardo/bpmn-assistant獲取。
我们引入了ADAM(人类多元档案库),一个用于评估和提升多模态大语言模型(MLLMs)在传记推理方面能力的框架。据我们所知,这是首次系统性地考察大语言模型在传记这一关键但尚未充分探索的事实知识维度上的表现。ADAM的核心在于AdamDB,这是一个多语言、多模态的数据集,涵盖了跨越地理、时间和职业的超过400万个人物;而AdamBench则基于布鲁姆分类法,提供了认知结构化的评估体系,涵盖了英语及母语中的六个推理层次。针对模型在描述鲜为人知人物时易产生的幻觉问题,我们提出了AdamRAG,一个专为传记情境设计的检索增强生成系统。实验表明,AdamRAG显著提升了开源模型的表现,并对闭源模型也有一定程度的帮助,尤其是在较低层次推理任务上效果最为显著。人物知名度对准确性有显著影响,而通过面部图像的多模态输入相较于检索带来的改进较小且不够稳定。ADAM首次建立了基于认知、文化及多模态的传记评估基准与框架,推动了多语言、准确且抗幻觉的多模态大语言模型的发展。
生成準確且校準的信心估計對於在高風險或面向用戶的應用中部署大型語言模型(LLM)至關重要,這仍是一個未解的挑戰。先前的研究常將信心問題框架為誘導模型的“自我認知”,即LLM判斷自身答案是否正確的能力;這種方法隱含地假設存在某種關於答案正確性的特權信息,且該信息對模型本身是可訪問的。然而,我們的實驗表明,LLM試圖預測自身輸出的正確性時,其表現通常並不比一個無關的LLM更好。此外,我們假設構建“正確性模型”(CM)的一個關鍵因素是接觸目標模型的歷史預測。我們提出了多種方法來注入這種歷史正確性信息,從而創建一個廣義正確性模型(GCM)。我們首先展示,GCM可以基於多個LLM的正確性數據進行訓練,並學習適用於不同數據集和模型的正確性預測模式。接著,我們將CM作為研究正確性預測能力及其泛化來源的透鏡,系統地控制其訓練數據,發現答案的表述方式是預測正確性的強有力指標。我們進一步探索了在不訓練LLM的情況下注入歷史的替代方法,發現將歷史作為上下文示例包含在內有助於提高正確性預測,而事後校準則能提供互補性的校準誤差降低。我們基於Qwen3-8B在5個模型家族及MMLU和TriviaQA數據集上評估了GCM,並在一個下游選擇性預測任務中進行了測試,結果表明,可靠的LLM信心估計是一種可泛化且模型無關的技能,通過系統地編碼正確性歷史而非依賴於自我內省來習得。
結合隨機最優控制的強化學習為擴散微調提供了一個極具前景的框架,其中預訓練的擴散模型被優化以生成導向獎勵傾斜分佈的路徑。雖然這些方法能夠在無需從最優分佈中獲取顯式樣本的情況下進行優化,但它們需要在當前微調模型下對軌跡進行訓練,這使得它們容易強化那些產生低獎勵的次優軌跡。為克服這一挑戰,我們引入了基於樹搜索引導的軌跡感知微調框架(TR2-D2),這是一種新穎的框架,它利用樹搜索來優化獎勵引導的離散擴散軌跡,從而構建用於軌跡感知微調的回放緩衝區。這些緩衝區是通過蒙特卡羅樹搜索(MCTS)生成的,隨後用於在隨機最優控制目標下微調預訓練的離散擴散模型。我們在生物序列擴散模型的單目標和多目標微調上驗證了我們的框架,展示了TR2-D2在離散序列生成中進行可靠獎勵引導微調的整體有效性。
影片字幕提供了影片中演員、物體和動作的簡明摘要,對於問答系統和事件定位等應用具有重要價值。然而,獲取人工標註的影片字幕成本高昂,甚至在某些多樣化的影片領域中不切實際。現有基於監督數據集訓練的模型在跨領域性能評估上面臨挑戰,這主要歸因於依賴於需要參考真實字幕的基於參考的評估協議。這種假設在評估現實世界中的影片時並不現實。為解決這些限制,我們提出了一種無需參考真實字幕的評估框架,專注於事實基礎,以確保對字幕質量的準確評估。我們引入了VC-Inspector,這是一種新穎的字幕質量評估器,既無需參考又基於事實。利用大型語言模型,我們基於監督數據生成不同質量的偽字幕,隨後用於訓練一個多模態模型(即Qwen2.5-VL)作為評估器。我們的方法在VATEX-Eval數據集上展示了與人類判斷的高度一致性,優於現有方法。當將圖像視為單幀影片時,該性能也泛化到圖像字幕數據集Flickr8K-Expert和Flickr8K-CF。總體而言,VC-Inspector提供了一種可擴展且可泛化的解決方案,用於評估影片字幕的事實準確性,為多樣化影片領域中更有效和客觀的評估方法鋪平了道路。
在過去十年間,計算語言學(CL)與自然語言處理(NLP)領域發展迅速,尤其是隨著基於Transformer架構的大型語言模型(LLMs)的出現。這一轉變重塑了研究目標與優先事項,從詞彙與語義資源轉向語言建模與多模態研究。在本研究中,我們透過分析CLiC-it會議的投稿,追蹤了義大利CL與NLP社群的研究趨勢,CLiC-it可謂該領域在義大利的領先會議。我們將CLiC-it會議前10屆(2014年至2024年)的論文集結成CLiC-it語料庫,對其元數據(包括作者來源、性別、所屬機構等)以及論文內容(涵蓋多種主題)進行了全面分析。我們的目標是為義大利及國際研究社群提供關於新興趨勢與關鍵發展的寶貴見解,支持該領域的明智決策與未來方向。