每日精選AI研究論文及翻譯
檢索增強生成(RAG)通過注入外部知識提升了大型語言模型(LLM)的事實準確性,但在需要多步推理的問題上仍顯不足;相反,純粹以推理為導向的方法往往會產生幻覺或錯誤地錨定事實。本綜述從統一的推理-檢索視角綜合了這兩種思路。我們首先探討了高級推理如何優化RAG的各個階段(推理增強型RAG)。接著,展示了不同類型的檢索知識如何為複雜推理提供缺失的前提並擴展上下文(RAG增強型推理)。最後,聚焦於新興的RAG-推理協同框架,其中(具代理性的)LLM迭代地交織搜索與推理,在知識密集型基準測試中實現了頂尖性能。我們對方法、數據集及開放性挑戰進行了分類,並勾勒出研究路徑,旨在構建更有效、多模態適應性更強、更可信且以人為本的深度RAG-推理系統。該資源集可在https://github.com/DavidZWZ/Awesome-RAG-Reasoning 獲取。
在現實世界的軟體工程中,程式碼效能優化至關重要,對於生產級系統更是不可或缺。儘管大型語言模型(LLMs)在程式碼生成和錯誤修復方面展現了令人印象深刻的能力,但這些模型在倉庫層面上提升程式碼效能的熟練度仍大多未被探索。為填補這一空白,我們推出了SWE-Perf,這是首個專門設計用於系統性評估LLMs在真實倉庫情境下進行程式碼效能優化任務的基準測試。SWE-Perf包含140個精心挑選的案例,每個案例均源自GitHub熱門倉庫中的效能改進拉取請求。每個基準測試案例都涵蓋了相關的程式碼庫、目標函數、效能相關測試、專家撰寫的修補程式以及可執行的環境。通過對代表性方法(如無代理和開放式方法)進行全面評估,我們揭示了現有LLMs與專家級優化效能之間的顯著能力差距,凸顯了這一新興領域中的關鍵研究機會。
3D建模正從虛擬走向實體。現有的3D生成技術主要關注幾何形狀與紋理,而忽視了基於物理的建模。因此,儘管3D生成模型發展迅速,合成的3D資產往往忽略了豐富且重要的物理屬性,這阻礙了它們在模擬和具身AI等物理領域的實際應用。作為應對這一挑戰的初步嘗試,我們提出了PhysX,一種端到端的基於物理的3D資產生成範式。1) 為彌補物理註釋3D數據集的關鍵缺口,我們推出了PhysXNet——首個系統性註釋五大基礎維度的基於物理的3D數據集:絕對尺度、材質、功能可能性、運動學及功能描述。特別地,我們設計了一種基於視覺語言模型的可擴展人機協同註釋流程,能夠高效地從原始3D資產創建物理優先的資產。2) 此外,我們提出了PhysXGen,一個基於物理的圖像到3D資產生成的前饋框架,將物理知識注入預訓練的3D結構空間中。具體而言,PhysXGen採用雙分支架構,顯式建模3D結構與物理屬性之間的潛在關聯,從而生成具有合理物理預測且保持原有幾何質量的3D資產。大量實驗驗證了我們框架的優越性能和廣闊的泛化能力。所有代碼、數據和模型將被公開,以促進生成式物理AI的未來研究。
人類是交通生態系統中不可或缺的組成部分,理解其行為對於促進安全駕駛系統的發展至關重要。儘管近期的研究已探索了人類行為的多個方面——如動作、軌跡和意圖——但在自動駕駛領域,評估人類行為理解的綜合基準仍然缺失。在本研究中,我們提出了MMHU,這是一個大規模的人類行為分析基準,具備豐富的註釋,包括人類動作與軌跡、動作的文字描述、人類意圖以及與駕駛安全相關的關鍵行為標籤。我們的數據集涵蓋了來自多樣化來源的57,000個人類動作片段和173萬幀圖像,這些來源包括已建立的駕駛數據集(如Waymo)、來自YouTube的真實場景視頻以及自行收集的數據。我們開發了一個人機協作的註釋流程,以生成豐富的行為描述。我們提供了詳盡的數據集分析,並對多項任務進行了基準測試——從動作預測到動作生成,再到人類行為問答——從而提供了一個廣泛的評估套件。項目頁面:https://MMHU-Benchmark.github.io。
使虛擬人物能夠動態且真實地回應多樣化的聽覺刺激,仍然是角色動畫中的一個關鍵挑戰,這需要整合感知建模與運動合成技術。儘管其重要性不言而喻,這一任務在很大程度上仍未被充分探索。以往的研究大多專注於將語音、音頻和音樂等模態映射以生成人體運動。然而,這些模型通常忽略了空間音頻信號中編碼的空間特徵對人體運動的影響。為彌補這一空白並實現對空間音頻驅動的高質量人體運動建模,我們首次引入了全面的空間音頻驅動人體運動(SAM)數據集,該數據集包含了多樣化且高質量的空間音頻與運動數據。為了進行基準測試,我們開發了一個簡單而有效的基於擴散生成的人體運動生成框架,名為MOSPA(由空間音頻驅動的人體運動生成),它通過有效的融合機制忠實地捕捉了身體運動與空間音頻之間的關係。一旦訓練完成,MOSPA能夠根據不同的空間音頻輸入生成多樣化的逼真人體運動。我們對所提出的數據集進行了深入的研究,並進行了廣泛的實驗以進行基準測試,在此任務中,我們的方法達到了最先進的性能。我們的模型和數據集將在論文被接受後開源。更多詳情,請參閱我們的補充視頻。
大型語言模型(LLM)代理在解決現實世界問題方面展現出巨大潛力,並有望成為工業任務自動化的解決方案。然而,從工業角度(例如土木工程)系統評估自動化代理,尚需更多基準測試。因此,我們提出了DrafterBench,用於在技術圖紙修訂(土木工程中的一項代表性任務)背景下全面評估LLM代理。DrafterBench包含從實際圖紙文件中總結出的十二類任務,配備46個定制功能/工具,總計1920項任務。作為一個開源基準,DrafterBench嚴格測試AI代理在解讀複雜且長上下文指令、利用先驗知識以及通過隱含策略意識適應動態指令質量方面的熟練程度。該工具包全面評估了結構化數據理解、功能執行、指令遵循和批判性推理等不同能力。DrafterBench提供任務準確性和錯誤統計的詳細分析,旨在深入洞察代理能力,並為LLM在工程應用中的整合確定改進目標。我們的基準測試可在https://github.com/Eason-Li-AIS/DrafterBench獲取,測試集則托管於https://huggingface.co/datasets/Eason666/DrafterBench。
大型語言模型(LLM)社群幾乎專注於僅解碼器架構的語言模型,因為這類模型在文本生成任務上更易於使用。然而,仍有相當一部分社群使用僅編碼器模型來處理分類或檢索等任務。先前的研究曾嘗試比較這些架構,但不得不面對模型參數量、訓練技術和數據集不同的情況。我們引入了SOTA開源數據的Ettin模型套件:包含從1700萬到10億參數的配對僅編碼器和僅解碼器模型,這些模型在最多2萬億個token上進行了訓練。對僅編碼器和僅解碼器模型採用相同的訓練方案,使我們在各自規模的類別中均獲得了SOTA的訓練方案,超越了作為編碼器的ModernBERT,以及作為解碼器的Llama 3.2和SmolLM2。與先前的研究一致,我們發現僅編碼器模型在分類和檢索任務上表現出色,而解碼器模型則擅長生成任務。然而,我們證明,通過持續訓練將解碼器模型適應於編碼器任務(反之亦然),其效果不如僅使用反向目標(即一個4億參數的編碼器在MNLI上優於一個10億參數的解碼器,而在生成任務上則相反)。我們開源了本研究的全部成果,包括訓練數據、按檢查點劃分的訓練順序,以及200多個檢查點,以便未來的研究能夠分析或擴展訓練的各個方面。
我們提出Lizard,這是一個線性化框架,旨在將預訓練的基於Transformer的大型語言模型(LLMs)轉化為適用於無限上下文生成的靈活、次二次方複雜度架構。隨著上下文長度的增加,基於Transformer的LLMs面臨顯著的記憶體和計算瓶頸,這源於softmax注意力的二次方複雜度以及不斷增長的鍵值(KV)快取。Lizard通過引入一種次二次方注意力機制來解決這些限制,該機制緊密逼近softmax注意力,同時保持輸出質量。與以往的線性化方法不同,這些方法通常受限於固定的模型結構,因此排除了門控機制,Lizard則融合了受最新頂尖線性模型啟發的門控模組。這使得Lizard能夠實現自適應記憶體控制、支持恆定記憶體推理、展現出強大的長度泛化能力,並允許更靈活的模型設計。Lizard結合了用於全局上下文壓縮的門控線性注意力與由元記憶體增強的滑動窗口注意力,形成了一種混合機制,既能捕捉長距離依賴,又能精細處理局部交互。此外,我們引入了一種硬件感知算法,以加速模型的訓練速度。大量實驗表明,Lizard在標準語言建模任務上幾乎無損地恢復了教師模型的性能,同時顯著超越了以往的線性化方法。在5-shot MMLU基準測試中,Lizard相比先前模型提升了18分,並在關聯回憶任務上展現出顯著改進。
近期在視頻生成領域,尤其是擴散模型方面的進展,顯著推動了文本到視頻(T2V)和圖像到視頻(I2V)合成的發展。然而,在有效整合動態運動信號和靈活的空間約束方面仍存在挑戰。現有的T2V方法通常依賴於文本提示,這本質上缺乏對生成內容空間佈局的精確控制。相比之下,I2V方法則受限於其對真實圖像的依賴,這限制了合成內容的可編輯性。儘管一些方法引入了ControlNet以實現基於圖像的條件控制,但它們往往缺乏明確的運動控制,並且需要耗費大量計算資源進行訓練。為解決這些限制,我們提出了AnyI2V,這是一個無需訓練的框架,能夠根據用戶定義的運動軌跡為任何條件圖像生成動畫。AnyI2V支持更廣泛的條件圖像模態,包括ControlNet不支持的數據類型,如網格和點雲,從而實現更靈活多樣的視頻生成。此外,它還支持混合條件輸入,並通過LoRA和文本提示實現風格轉換和編輯。大量實驗表明,所提出的AnyI2V在空間和運動控制的視頻生成方面表現卓越,並提供了新的視角。代碼可在https://henghuiding.com/AnyI2V/獲取。
我們推出SpatialTrackerV2,這是一種針對單目視頻的前饋式三維點追蹤方法。與基於現成組件構建的模塊化三維追蹤流程不同,我們的方法將點追蹤、單目深度估計和相機姿態估計之間的內在聯繫統一為一個高性能的前饋式三維點追蹤器。它將世界空間中的三維運動分解為場景幾何、相機自運動和像素級物體運動,採用完全可微分且端到端的架構,使得能夠在包括合成序列、帶姿態的RGB-D視頻以及未標記的野外片段在內的多樣數據集上進行可擴展的訓練。通過從此類異構數據中聯合學習幾何與運動,SpatialTrackerV2在性能上超越了現有的三維追蹤方法30%,並在保持領先動態三維重建方法精度的同時,運行速度提升了50倍。
近期研究確立了一種新的機器學習範式,該範式基於在推理時和訓練時同時擴展計算能力。在這方面的工作中,結合了對合成示範的監督微調(SFT)和帶有可驗證獎勵的強化學習(RLVR),用於訓練大型語言模型在推理時以自然語言表達的「思考」形式消耗額外計算資源。在本論文中,我們提出將這些標記格式化為與有狀態工具的多輪交互軌跡。在每一輪中,工具的新狀態會被附加到模型的上下文中,而模型的任務是生成通過自定義領域特定語言(DSL)控制工具所需的標記。我們在修復故障Python代碼的問題上對這一方法進行了基準測試,並展示了這種受限設置能夠加快經驗採樣速度並提供更密集的獎勵信號,使得即使是參數規模高達3B的模型也能學會如何熟練地在任務上消耗額外計算資源。
本文介绍了AI Wizards参与CLEF 2025 CheckThat!实验室任务1:新闻文章中的主观性检测,在单语、多语及零样本设置下对句子进行主观/客观分类。训练/开发数据集涵盖了阿拉伯语、德语、英语、意大利语和保加利亚语;最终评估则引入了更多未见语言(如希腊语、罗马尼亚语、波兰语、乌克兰语)以评估模型的泛化能力。我们的核心策略是通过将辅助模型生成的情感评分与句子表征相结合,增强基于Transformer的分类器性能,旨在超越标准微调方法。我们利用mDeBERTaV3-base、ModernBERT-base(英语)及Llama3.2-1B探索了这种情感增强架构。针对跨语言普遍存在的类别不平衡问题,我们采用了基于开发集优化的决策阈值校准技术。实验结果表明,情感特征的整合显著提升了模型性能,尤其是主观F1分数。该框架使我们在多项排名中位居前列,特别是在希腊语上取得了第一名的佳绩(宏F1 = 0.51)。
大型語言模型的強化學習(RL)是一項耗能巨大的任務:訓練過程可能不穩定,且策略可能逐漸偏離其預訓練權重。我們提出了RLEP——基於經驗回放的強化學習——這是一個兩階段框架,首先收集經過驗證的軌跡,然後在後續訓練中重播這些軌跡。在每次更新步驟中,策略會在混合了新生成軌跡與這些回放成功案例的小批量數據上進行優化。通過重播高質量示例,RLEP引導模型遠離無效探索,將學習集中在有潛力的推理路徑上,從而實現更快的收斂和更強的最終性能。在Qwen2.5-Math-7B基礎模型上,RLEP以顯著更少的更新次數達到了基準峰值準確率,並最終超越之,將AIME-2024的準確率從38.2%提升至39.9%,AIME-2025從19.8%提升至22.3%,AMC-2023從77.0%提升至82.2%。我們的代碼、數據集和檢查點已公開於https://github.com/Kwai-Klear/RLEP,以便於重現性和進一步研究。
軟體函式庫的快速演進為程式碼生成帶來了重大挑戰,這需要持續適應頻繁的版本更新,同時保持向後兼容性。雖然現有的程式碼演化基準提供了有價值的見解,但它們通常缺乏基於執行的評估,無法生成符合特定函式庫版本的程式碼。為了解決這個問題,我們引入了GitChameleon,這是一個新穎且精心策劃的資料集,包含328個Python程式碼補全問題,每個問題都基於特定的函式庫版本,並附帶可執行的單元測試。GitChameleon嚴格評估了當代大型語言模型(LLMs)、LLM驅動的代理、程式碼助手和RAG系統在執行中展示功能準確性的版本條件程式碼生成能力。我們廣泛的評估表明,最先進的系統在這一任務上面臨著重大挑戰;企業模型在48-51%的範圍內達到了基線成功率,凸顯了這一問題的複雜性。通過提供一個強調程式碼函式庫動態特性的基於執行的基準,GitChameleon使人們能夠更清晰地理解這一挑戰,並有助於指導開發更適應性和可靠的AI程式碼生成方法。我們將資料集和評估程式碼公開於https://github.com/mrcabbage972/GitChameleonBenchmark。
基礎多模態模型通常通過拼接多個現有的預訓練單模態模型來設計:例如,將圖像分類器與文本模型結合。這種拼接過程通過訓練一個連接模塊來實現,該模塊旨在將這些單模態模型的表示空間對齊到多模態目標上。然而,考慮到在大規模網絡數據集上訓練此類連接模塊的複雜性,以及可用預訓練單模態模型數量的不斷增加,選擇單模態模型並隨後訓練連接模塊的任務變得計算密集。為了解決這一尚未充分研究的關鍵問題,我們提出了超網絡模型對齊(Hypernetwork Model Alignment, Hyma),這是一種利用超網絡實現最佳單模態模型選擇和連接模塊訓練的一體化解決方案。具體而言,我們的框架利用超網絡的參數預測能力,為N乘以M種單模態模型組合獲取聯合訓練的連接模塊。在我們的實驗中,Hyma將搜索最佳單模態模型對的成本降低了10倍,同時在一系列多樣化的多模態基準測試中,匹配了通過網格搜索獲得的排名和訓練後的連接模塊性能。
知識蒸餾作為一種高效的知識轉移技術,在單模態場景中已取得顯著成功。然而,在跨模態環境下,傳統的蒸餾方法因數據和統計異質性面臨重大挑戰,無法充分利用跨模態教師模型中嵌入的互補先驗知識。本文實證揭示了現有方法中的兩個關鍵問題:蒸餾路徑選擇與知識漂移。為解決這些限制,我們提出了MST-Distill,一種新穎的跨模態知識蒸餾框架,其特點在於混合了專精教師。我們的方法採用了跨模態與多模態配置下多樣化的教師模型集成,並結合一個實例級別的路由網絡,實現了自適應且動態的蒸餾。此架構有效超越了依賴單一靜態教師模型的傳統方法之局限。此外,我們引入了一個可插拔的掩碼模塊,獨立訓練以抑制模態特定差異並重構教師表示,從而減輕知識漂移並提升轉移效果。在涵蓋視覺、音頻和文本的五大多模態數據集上的廣泛實驗表明,我們的方法在跨模態蒸餾任務中顯著優於現有的最先進知識蒸餾方法。源代碼已公開於https://github.com/Gray-OREO/MST-Distill。