每日精選AI研究論文及翻譯
我們介紹了CASS,這是首個針對跨架構GPU程式碼轉譯的大規模資料集與模型套件,涵蓋源碼層級(CUDA ↔ HIP)與彙編層級(Nvidia SASS ↔ AMD RDNA3)的轉譯。該資料集包含70,000對經過驗證的主機與設備程式碼對,填補了低階GPU程式碼可攜性領域的關鍵空白。利用這一資源,我們訓練了CASS系列領域專用語言模型,實現了95%的源碼轉譯準確率與37.5%的彙編轉譯準確率,顯著超越了如GPT-4o、Claude及Hipify等商業基準。我們生成的程式碼在超過85%的測試案例中與原生性能相匹配,保持了運行時與記憶體行為。為支持嚴謹的評估,我們引入了CASS-Bench,這是一個涵蓋16個GPU領域並包含真實執行的精選基準測試集。所有資料、模型及評估工具均以開源形式發布,旨在促進GPU編譯器工具、二進制兼容性及LLM引導的硬體轉譯領域的進步。資料集與基準測試集可在https://huggingface.co/datasets/MBZUAI/cass{blue{HuggingFace}}獲取,程式碼則位於https://github.com/GustavoStahl/CASS{blue{GitHub}}。
我們推出了Mutarjim,這是一個緊湊而強大的雙向阿拉伯語-英語翻譯語言模型。雖然大規模的語言模型(LLMs)在自然語言處理任務,包括機器翻譯方面,已展現出顯著的進展,但較小的模型也有其獨特優勢。基於這一洞察,我們開發了Mutarjim,它基於Kuwain-1.5B,這是一個專為阿拉伯語和英語設計的語言模型。儘管體積適中,Mutarjim在多個已建立的基準測試中超越了許多更大的模型,這得益於其優化的兩階段訓練方法和精心挑選的高質量訓練語料庫。實驗結果顯示,Mutarjim在性能上可與體積大20倍的模型相媲美,同時顯著降低了計算成本和訓練需求。我們還推出了Tarjama-25,這是一個新的基準測試,旨在克服現有阿拉伯語-英語基準數據集的局限性,如領域狹窄、句子長度短和英語源語偏見。Tarjama-25包含5,000對專家審查的句子對,涵蓋廣泛的領域,提供了一個更全面和平衡的評估框架。值得注意的是,Mutarjim在Tarjama-25的英語到阿拉伯語任務中達到了最先進的性能,甚至超越了像GPT-4o mini這樣更大且專有的模型。我們公開發布Tarjama-25,以支持未來的研究並推動阿拉伯語-英語翻譯系統的評估進展。
大型语言模型(LLMs)及多模态大型语言模型(MLLMs)的快速发展,历来依赖于通过将参数规模从数百万扩展至数千亿来推动性能提升的模型中心化扩展策略。然而,随着我们逼近模型规模的硬件极限,主要的计算瓶颈已从根本上转向了长序列自注意力机制的二次方成本,这一成本现由超长文本上下文、高分辨率图像及延长视频所驱动。在本立场论文中,我们主张高效人工智能研究的焦点正从模型中心化压缩转向数据中心化压缩。我们将令牌压缩定位为新的前沿领域,它通过减少模型训练或推理过程中的令牌数量来提升AI效率。通过全面分析,我们首先审视了各领域内长上下文AI的最新进展,并为现有模型效率策略建立了一个统一的数学框架,阐明了为何令牌压缩在应对长上下文开销方面代表了一次关键的范式转变。随后,我们系统性地回顾了令牌压缩的研究现状,分析了其基础优势,并识别了其在多样化场景中的显著优点。此外,我们深入探讨了当前令牌压缩研究面临的挑战,并勾勒了未来发展的光明方向。最终,我们的工作旨在为AI效率提供新视角,整合现有研究,并激发创新性发展,以应对日益增长的上下文长度对AI社区进步带来的挑战。
預訓練為文本到圖像(T2I)模型提供了廣泛的世界知識,但僅此往往不足以實現高美學品質和對齊。因此,監督式微調(SFT)對於進一步的精煉至關重要。然而,其效果高度依賴於微調數據集的質量。現有的公開SFT數據集通常針對狹窄的領域(例如動漫或特定藝術風格),而創建高質量、通用目的的SFT數據集仍然是一個重大挑戰。當前的策展方法通常成本高昂,且難以識別真正有影響力的樣本。這一挑戰因公開通用數據集的稀缺而進一步複雜化,因為領先模型往往依賴於大型、專有且文檔記錄不佳的內部數據,阻礙了更廣泛的研究進展。本文介紹了一種新穎的方法,通過利用預訓練的生成模型作為高影響力訓練樣本的估計器,來創建通用目的的SFT數據集。我們應用這一方法構建並發布了Alchemist,這是一個緊湊(3,350個樣本)但極其有效的SFT數據集。實驗表明,Alchemist顯著提升了五個公開T2I模型的生成質量,同時保持了多樣性和風格。此外,我們還向公眾發布了微調模型的權重。
大型語言模型在通用任務上表現出色,然而評估其在邏輯密集、精確度至關重要的領域(如金融、法律和醫療)中的可靠性仍具挑戰性。為此,我們推出了BizFinBench,這是首個專門設計用於評估LLM在現實世界金融應用中的基準測試。BizFinBench包含6,781條精心註解的中文查詢,涵蓋五個維度:數值計算、推理、信息提取、預測識別和基於知識的問答,並細分為九個精細類別。該基準測試既包含客觀指標也包含主觀指標。我們還引入了IteraJudge,這是一種新穎的LLM評估方法,能夠在LLM作為客觀指標評估者時減少偏見。我們對25個模型進行了基準測試,包括專有和開源系統。大量實驗表明,沒有模型能在所有任務中佔據主導地位。我們的評估揭示了不同的能力模式:(1)在數值計算方面,Claude-3.5-Sonnet(63.18)和DeepSeek-R1(64.04)領先,而像Qwen2.5-VL-3B(15.92)這樣的小模型則顯著落後;(2)在推理方面,專有模型佔據優勢(ChatGPT-o3:83.58,Gemini-2.0-Flash:81.15),開源模型落後多達19.49分;(3)在信息提取方面,性能差距最大,DeepSeek-R1得分71.46,而Qwen3-1.7B僅得11.23;(4)在預測識別方面,性能差異最小,頂級模型得分在39.16至50.00之間。我們發現,雖然當前LLM能夠勝任常規的金融查詢,但在需要跨概念推理的複雜場景中仍存在困難。BizFinBench為未來研究提供了一個嚴謹且與商業對齊的基準測試。代碼和數據集可在https://github.com/HiThink-Research/BizFinBench獲取。
当前的大型语言模型(LLMs)通常对所有问题采用固定的推理策略,无论其难度如何,这种策略可能是简单的或复杂的。这种对任务和推理过程复杂性变化的忽视导致了性能与效率之间的不平衡。现有方法试图通过训练无关的快速-慢速思维系统切换来处理不同难度的问题,但受限于粗粒度的解决方案级别策略调整。为了解决这一问题,我们提出了一种新颖的推理范式:过程级自适应思维模式切换(PATS),它使LLMs能够根据每个步骤的难度动态调整其推理策略,从而优化准确性与计算效率之间的平衡。我们的方法将过程奖励模型(PRMs)与束搜索相结合,融入了渐进式模式切换和不良步骤惩罚机制。在多样化的数学基准测试上的实验表明,我们的方法在保持适度令牌使用的同时实现了高准确性。本研究强调了过程级、难度感知的推理策略适应的重要性,为LLMs的高效推理提供了宝贵的见解。
由大型語言模型(LLMs)驅動的具身代理在家庭物品重排任務中展現了強大的性能。然而,這些任務主要聚焦於簡化指令的單輪互動,未能真正反映提供有意義用戶協助的挑戰。為提供個性化協助,具身代理必須理解用戶賦予物理世界的獨特語義(例如,最喜歡的杯子、早餐習慣),並利用先前的互動歷史來解讀動態的現實世界指令。然而,具身代理在利用記憶提供個性化協助方面的有效性仍大多未被充分探索。為填補這一空白,我們提出了MEMENTO,一個旨在全面評估記憶利用能力以提供個性化協助的具身代理評估框架。我們的框架包含一個兩階段的記憶評估流程設計,能夠量化記憶利用對任務表現的影響。這一流程通過聚焦於其在目標解讀中的作用,評估代理在物品重排任務中對個性化知識的理解:(1)基於個人意義識別目標物品的能力(物品語義),以及(2)從用戶一致模式(如日常習慣)推斷物品位置配置的能力(用戶模式)。我們對多種LLMs的實驗揭示了記憶利用的顯著限制,即使是像GPT-4o這樣的前沿模型,在需要參考多個記憶時,尤其是在涉及用戶模式的任務中,性能下降了30.5%。這些發現,連同我們的詳細分析和案例研究,為未來開發更有效的個性化具身代理提供了寶貴的見解。項目網站:https://connoriginal.github.io/MEMENTO
儘管大型推理模型在複雜任務上展現出強大的性能,它們卻缺乏根據任務難度調整推理令牌使用的能力。這往往導致「過度思考」問題——即過多且不必要的推理——雖然可以通過人為干預來控制令牌預算以緩解此問題,但這從根本上與實現完全自主AI的目標相悖。在本研究中,我們提出了自適應推理模型(Adaptive Reasoning Model, ARM),這是一種能夠根據當前任務自適應選擇合適推理格式的推理模型。這些格式包括三種高效格式——直接回答(Direct Answer)、簡短思維鏈(Short CoT)和代碼(Code)——以及一種更為詳盡的格式,長思維鏈(Long CoT)。為了訓練ARM,我們引入了Ada-GRPO,這是對群組相對策略優化(Group Relative Policy Optimization, GRPO)的改進,解決了傳統GRPO中的格式崩潰問題。Ada-GRPO使ARM能夠實現高令牌效率,平均減少30%的令牌使用,最高可達70%,同時保持與僅依賴長思維鏈的模型相當的性能。此外,它不僅通過減少令牌生成提高了推理效率,還使訓練速度提升了2倍。除了默認的自適應模式外,ARM還支持兩種額外的推理模式:1)指令引導模式(Instruction-Guided Mode),允許用戶通過特殊令牌明確指定推理格式——這在已知一批任務的合適格式時非常理想。2)共識引導模式(Consensus-Guided Mode),它聚合三種高效格式的輸出,並在出現分歧時轉向長思維鏈,優先考慮性能但伴隨更高的令牌使用。
大型語言模型(LLMs),如OpenAI的o1和DeepSeek的R1,在通過可驗證獎勵的強化學習(RLVR)處理數學和編碼等高級推理任務方面表現出色,但在解決人類無需領域知識即可破解的謎題時仍顯吃力。我們推出了Enigmata,這是首個專為提升LLMs謎題推理能力而設計的綜合套件。它包含七個類別下的36項任務,每項任務均配備:1)一個能生成無限示例且難度可控的生成器,以及2)一個基於規則的自動評估驗證器。這種生成器-驗證器設計支持可擴展的多任務RL訓練、細粒度分析及無縫RLVR集成。我們進一步提出了Enigmata-Eval,一個嚴格的基準測試,並開發了優化的多任務RLVR策略。我們訓練的模型Qwen2.5-32B-Enigmata,在Enigmata-Eval、ARC-AGI(32.8%)和ARC-AGI 2(0.6%)等謎題推理基準上持續超越o3-mini-high和o1。它還能在域外謎題基準和數學推理上展現良好的泛化能力,且多任務處理的權衡影響甚微。當在更大模型如Seed1.5-Thinking(200億激活參數和2000億總參數)上訓練時,Enigmata提供的謎題數據進一步提升了在AIME(2024-2025)、BeyondAIME和GPQA(Diamond)等高級數學和STEM推理任務上的SoTA性能,顯示了Enigmata出色的泛化效益。本工作為推進LLMs的邏輯推理提供了一個統一且可控的框架。相關資源可訪問https://seed-enigmata.github.io獲取。
我們提出了一種新穎的框架,從元學習的角度來理解大型語言模型(LLMs)的推理能力。通過將推理軌跡概念化為對LLM參數的偽梯度下降更新,我們識別出LLM推理與多種元學習範式之間的相似性。我們將推理任務的訓練過程形式化為一種元學習設置,其中每個問題被視為單獨的任務,而推理軌跡則作為適應模型參數的內循環優化。一旦在多樣化的問題集上完成訓練,LLM便發展出能夠泛化到未見過問題的基本推理能力。大量的實證評估證實了LLM推理與元學習之間的緊密聯繫,並從元學習的角度探討了幾個具有重要意義的問題。我們的工作不僅加深了對LLM推理的理解,還為通過成熟的元學習技術改進這些模型提供了實用的見解。
大型語言模型在自然語言處理任務中取得了顯著成功,其中強化學習在使其適應特定應用方面發揮了關鍵作用。然而,在數學問題求解中為訓練大型語言模型獲取真實答案往往具有挑戰性、成本高昂,有時甚至不可行。本研究深入探討了利用格式和長度作為替代信號來訓練大型語言模型進行數學問題求解,從而繞過對傳統真實答案的需求。我們的研究表明,僅以格式正確性為核心的獎勵函數在早期階段即可帶來與標準GRPO算法相當的性能提升。認識到僅依賴格式獎勵在後期階段的局限性,我們引入了基於長度的獎勵。由此產生的GRPO方法,利用格式-長度替代信號,不僅在某些場景下匹配甚至超越了依賴真實答案的標準GRPO算法的性能,在7B基礎模型上於AIME2024測試中達到了40.0%的準確率。通過系統的探索與實驗,本研究不僅為訓練大型語言模型解決數學問題提供了一種實用方案,並減少了對大量真實數據收集的依賴,而且揭示了我們無標籤方法成功的本質:基礎模型如同一位已掌握數學與邏輯推理技能的優秀學生,但在試卷上表現不佳,它只需培養良好的答題習慣即可在考試中取得優異成績,換言之,釋放其已具備的能力。
大型語言模型(LLMs)常表現出強烈的偏見,例如對女性的偏見或對數字7的偏好。我們探討了當LLMs在多輪對話中能夠觀察到自己對同一問題的先前回答時,是否能夠輸出較少偏見的答案。為了理解哪些類型的問題更容易引發偏見回答,我們在提出的問題集上測試了LLMs,這些問題涵蓋9個主題並分為三種類型:(1) 主觀性;(2) 隨機性;以及(3) 客觀性。有趣的是,LLMs在多輪對話中能夠針對尋求隨機、無偏見答案的問題進行“自我去偏見”。此外,我們提出了B-score,這是一種新穎的指標,能有效檢測對主觀性、隨機性、簡單及困難問題的偏見。在MMLU、HLE和CSQA上,利用B-score相比僅使用口語化信心分數或單輪回答頻率,顯著提升了LLM答案的驗證準確性(即接受LLM的正確答案並拒絕錯誤的)。代碼和數據可在以下網址獲取:https://b-score.github.io。
透過可驗證獎勵的強化學習(RLVR)來訓練大型語言模型(LLMs)進行複雜推理雖然有效,但其依賴於昂貴且特定領域的監督,存在一定限制。我們探索了基於內部反饋的強化學習(RLIF),這是一個讓LLMs能夠從內在信號中學習,而無需外部獎勵或標記數據的框架。我們提出了Intuitor,這是一種RLIF方法,它使用模型自身的信心(稱為自我確定性)作為唯一的獎勵信號。Intuitor在群組相對策略優化(GRPO)中用自我確定性分數取代了外部獎勵,實現了完全無監督的學習。實驗表明,Intuitor在數學基準測試中與GRPO的表現相當,同時在代碼生成等領域外任務上實現了更優的泛化能力,且無需黃金解決方案或測試案例。我們的研究結果表明,內在模型信號能夠驅動跨領域的有效學習,為無法獲得可驗證獎勵的自動化AI系統提供了一種可擴展的替代方案。代碼可在https://github.com/sunblaze-ucb/Intuitor獲取。
人類生成的獎勵信號對於使生成模型與人類偏好保持一致至關重要,這些信號指導著訓練和推理階段的評估。雖然大型語言模型(LLMs)作為代理評估者(即LLM-as-a-Judge)顯著降低了手動註釋的成本,但它們通常需要大量的特定模態訓練數據,並且在多樣化的多模態任務中難以良好泛化。在本文中,我們提出了Flex-Judge,這是一種基於推理引導的多模態評判模型,它利用極少的文本推理數據,在多種模態和評估格式中實現了穩健的泛化。我們的核心直覺是,結構化的文本推理解釋本質上編碼了可泛化的決策模式,從而能夠有效地轉移到多模態判斷中,例如涉及圖像或視頻的判斷。實驗結果表明,儘管Flex-Judge在顯著更少的文本數據上進行訓練,但其性能與最先進的商業API和經過廣泛訓練的多模態評估者相比,具有競爭力甚至更優。值得注意的是,Flex-Judge在分子等模態中展現了廣泛的影響力,這些領域缺乏全面的評估基準,這凸顯了其在資源受限領域的實用價值。我們的框架強調了基於推理的文本監督作為傳統註釋密集型方法的一種強大且成本效益高的替代方案,大大推進了可擴展的多模態模型即評判者的發展。
大型語言模型(LLMs)在自動化科學假設生成方面展現了潛力,然而現有方法主要產生的假設較為粗粒度,缺乏關鍵的方法論和實驗細節。我們引入並正式定義了細粒度科學假設發現這一新任務,該任務要求從粗略的初始研究方向生成詳細且可實驗操作的假設。我們將其框架為一個組合優化問題,並探討了在最大程度利用下,LLMs解決此問題的能力上限。具體而言,我們探討了四個基礎問題:(1) 如何最佳地利用LLM的內部啟發式來制定其自身認為在所有可能生成的假設中最有前景的細粒度假設,基於其內部評分——從而定義假設空間上的潛在獎勵景觀;(2) 此類由LLM評判的較好假設是否與真實假設表現出更強的對齊性;(3) 使用一組能力相似的多樣化LLMs來塑造獎勵景觀,是否比使用其中最強LLM的重複實例來定義獎勵景觀能產生更好的結果;以及(4) 一組相同的LLMs是否比單個LLM提供更可靠的獎勵景觀。為解決這些問題,我們提出了一種分層搜索方法,該方法逐步提出並將細節整合到假設中,從一般概念進展到具體的實驗配置。我們展示了這一分層過程平滑了獎勵景觀,並實現了更有效的優化。在一個基於近期化學文獻中專家註釋的細粒度假設的新基準上的實證評估表明,我們的方法始終優於強基線。
大型語言模型(LLMs)已取得顯著進展,但其日益增強的效能也使其面臨高度靈活的越獄攻擊,這些攻擊旨在繞過安全對齊機制。儘管現有許多防禦措施專注於已知攻擊類型,但更關鍵的是為LLMs做好準備,以應對部署期間可能出現的未知攻擊。為此,我們提出了一種終身安全對齊框架,使LLMs能夠持續適應新興且不斷演變的越獄策略。我們的框架引入了兩個組件之間的競爭設置:一個是元攻擊者(Meta-Attacker),其訓練目標是主動發現新型越獄策略;另一個是防禦者(Defender),其訓練目標是抵抗這些策略。為了有效預熱元攻擊者,我們首先利用GPT-4o API從大量與越獄相關的研究論文中提取關鍵見解。通過迭代訓練,第一輪元攻擊者在僅使用單輪攻擊的情況下,於RR上達到了73%的攻擊成功率(ASR),在LAT上達到了57%的轉移攻擊成功率。與此同時,防禦者逐步提升其魯棒性,最終將元攻擊者的成功率降低至僅7%,從而實現了LLMs在開放環境中更安全、更可靠的部署。相關代碼已公開於https://github.com/sail-sg/LifelongSafetyAlignment。
多模態大型語言模型(MLLMs)近期在視覺任務上取得了顯著進展,包括語義場景理解與圖文對齊,其推理變體更是在涉及數學與邏輯的複雜任務中提升了表現。然而,這些模型在需要細粒度視覺理解的推理任務上的能力仍未被充分評估。為填補這一空白,我們引入了ReasonMap,一個旨在評估MLLMs細粒度視覺理解與空間推理能力的基準。ReasonMap涵蓋了來自13個國家30個城市的高分辨率交通地圖,並包含1008個問答對,覆蓋兩類問題類型與三種模板。此外,我們設計了一個兩層評估流程,以恰當評判答案的正確性與質量。對15個流行MLLMs(包括基礎模型與推理變體)的全面評估揭示了一個反直覺的現象:在開源模型中,基礎模型優於推理模型,而在閉源模型中則觀察到相反的趨勢。同時,當視覺輸入被遮擋時,模型性能普遍下降,這表明儘管MLLMs能利用先驗知識回答部分問題,但細粒度視覺推理任務仍需真實的視覺感知才能取得強勁表現。我們的基準研究為視覺推理提供了新的見解,並有助於探討開源與閉源模型之間的差距。
儘管僅解碼器語言模型備受矚目,編碼器在資源受限的應用中仍扮演著關鍵角色。我們推出了ModernGBERT(134M、1B),這是一個完全透明的德語編碼器模型家族,從頭開始訓練,並融入了ModernBERT的架構創新。為了評估從頭訓練編碼器的實際權衡,我們還介紹了LL\"aMmlein2Vec(120M、1B、7B),這是一個通過LLM2Vec從德語僅解碼器模型衍生而來的編碼器家族。我們在自然語言理解、文本嵌入和長上下文推理任務上對所有模型進行了基準測試,從而實現了專用編碼器與轉換解碼器之間的對比。我們的結果表明,ModernGBERT 1B在性能和參數效率方面均優於先前的德語編碼器以及通過LLM2Vec適應的編碼器。所有模型、訓練數據、檢查點和代碼均已公開,以透明、高性能的編碼器模型推動德語NLP生態系統的發展。
視覺生成與理解是人類智能中兩個深度關聯的面向,然而在機器學習領域,它們傳統上被視為獨立的任務。本文提出Jodi,這是一個基於擴散模型的框架,通過聯合建模圖像域和多個標籤域,統一了視覺生成與理解。具體而言,Jodi建立在線性擴散變換器之上,並配備了角色切換機制,使其能夠執行三種特定類型的任務:(1)聯合生成,模型同時生成圖像和多個標籤;(2)可控生成,根據任意標籤組合生成圖像;(3)圖像感知,從給定圖像中一次性預測多個標籤。此外,我們還介紹了Joint-1.6M數據集,該數據集包含從公開來源收集的200,000張高質量圖像、7個視覺域的自動標籤以及由LLM生成的描述。大量實驗表明,Jodi在生成和理解任務上均表現出色,並展現出對更廣泛視覺域的強大擴展性。代碼可在https://github.com/VIPL-GENUN/Jodi獲取。
随着大型语言模型(LLMs)在软件开发工作流程中变得不可或缺,其生成结构化输出的能力变得至关重要。我们引入了StructEval,这是一个全面的基准测试,用于评估LLMs在生成不可渲染(JSON、YAML、CSV)和可渲染(HTML、React、SVG)结构化格式方面的能力。与以往的基准测试不同,StructEval通过两种范式系统地评估了跨多种格式的结构保真度:1)生成任务,从自然语言提示中生成结构化输出;2)转换任务,在结构化格式之间进行转换。我们的基准测试涵盖了18种格式和44种任务类型,并引入了新的指标来衡量格式遵循和结构正确性。结果显示,即使是最先进的模型如o1-mini,其平均得分也仅为75.58,而开源替代品则落后约10分。我们发现生成任务比转换任务更具挑战性,生成正确的视觉内容比生成仅包含文本的结构更为困难。
站在2025年,在追求人工通用智能(AGI)的關鍵時刻,強化微調(Reinforcement Fine-Tuning, RFT)已展現出顯著潛力,能夠提升大型語言模型(LLMs)的推理能力,並促成了如OpenAI-o1和DeepSeek-R1等尖端AI模型的發展。此外,RFT在多模態大型語言模型(MLLMs)中高效應用以增強其推理能力,也引起了學術界的廣泛關注。在本立場文件中,我們主張強化微調是驅動多模態大型語言模型推理能力的關鍵。首先,我們詳細介紹了對此領域感興趣的研究者應掌握的基本背景知識。接著,我們將RFT在提升MLLMs推理能力方面的改進精確總結為五大要點:多樣化的模態、多樣化的任務與領域、更優的訓練算法、豐富的基準測試以及蓬勃發展的工程框架。最後,我們提出了五個未來研究可能考慮的潛在方向。我們希望這份立場文件能在邁向AGI的關鍵階段,為學術界提供寶貴的見解。關於RFT應用於MLLMs的相關工作總結,可參見https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMs。
長時序視頻音頻推理與細粒度像素理解對全模態模型提出了相互矛盾的要求:密集的時間覆蓋需要大量低分辨率幀,而精確的定位則需高分辨率輸入。我們採用雙系統架構來應對這一權衡:全局推理系統選擇信息豐富的關鍵幀並以低空間成本重寫任務,而細節理解系統則在選定的高分辨率片段上執行像素級定位。由於“最優”關鍵幀選擇與任務重構具有模糊性且難以監督,我們將其構建為強化學習(RL)問題,並提出了基於群組相對策略優化的端到端RL框架——Omni-R1。Omni-R1通過與細節理解系統在線協作獲取的分層獎勵來訓練全局推理系統,僅需在小任務劃分上進行一輪RL訓練。 在兩個具有挑戰性的基準測試——參考音視頻分割(RefAVS)和推理視頻對象分割(REVOS)上的實驗表明,Omni-R1不僅超越了強監督基線,還優於專門的現有最先進模型,同時顯著提升了跨域泛化能力並減少了多模態幻覺。我們的成果展示了RL在大規模全模態推理中的首次成功應用,並為通向通用基礎模型的可擴展路徑提供了重要啟示。
我們提出了REARANK,這是一個基於大型語言模型(LLM)的列表式推理重排序代理。REARANK在重排序前進行顯式推理,顯著提升了性能和可解釋性。通過強化學習和數據增強,REARANK在流行的信息檢索基準上相較於基礎模型取得了顯著改進,尤其值得注意的是僅需179個註釋樣本。基於Qwen2.5-7B構建的REARANK-7B,在域內和域外基準測試中展現了與GPT-4相當的性能,並在推理密集型的BRIGHT基準上甚至超越了GPT-4。這些結果證明了我們方法的有效性,並凸顯了強化學習在提升LLM重排序推理能力方面的潛力。
離散擴散最近已成為離散數據建模中一個頗具前景的範式。然而,現有方法通常依賴於訓練期間固定的轉移矩陣,這不僅限制了潛在表示的表達能力——這是變分方法的一個基本優勢——也約束了整體的設計空間。為解決這些限制,我們提出了離散馬爾可夫橋(Discrete Markov Bridge),這是一個專門為離散表示學習設計的新框架。我們的方法建立在兩個關鍵組件之上:矩陣學習和分數學習。我們進行了嚴謹的理論分析,為矩陣學習建立了正式的性能保證,並證明了整個框架的收斂性。此外,我們分析了我們方法的空間複雜度,解決了先前研究中識別的實際約束。大量的實證評估驗證了所提出的離散馬爾可夫橋的有效性,其在Text8數據集上達到了1.38的證據下界(ELBO),超越了現有的基線方法。此外,所提出的模型在CIFAR-10數據集上也展示了競爭力的性能,取得了與專為圖像生成設計的方法相當的結果。
我們提出了一種用於即時互動流體模擬的神經物理系統。傳統基於物理的方法雖然精確,但計算量大且存在延遲問題。近期的機器學習方法在保持逼真度的同時降低了計算成本;然而,大多數方法仍無法滿足即時使用的延遲要求,並且缺乏對互動應用的支持。為彌補這一差距,我們引入了一種新穎的混合方法,該方法整合了數值模擬、神經物理和生成控制。我們的神經物理系統通過採用經典數值求解器的備用保障機制,同時追求低延遲模擬和高物理逼真度。此外,我們開發了一種基於擴散的控制器,該控制器使用逆向建模策略進行訓練,以生成用於流體操控的外部動態力場。我們的系統在多樣的2D/3D場景、材料類型及障礙物互動中展現了穩健的性能,實現了高幀率下的即時模擬(11~29%的延遲),並支持通過用戶友好的手繪草圖引導流體控制。我們在實現實用、可控且物理合理的即時互動流體模擬方面邁出了重要一步。我們承諾在論文被接受後將公開模型和數據。
大型語言模型(LLMs)在數學和編程領域展現了卓越的推理能力,這通常得益於對由更強模型生成的思維鏈(CoTs)進行後續訓練。然而,現有的訓練數據策劃策略主要依賴於啟發式方法,限制了其泛化能力,並未能捕捉數據中的細微差異。為解決這些限制,我們利用影響函數系統地將LLMs在數學和編程上的推理能力歸因於個別訓練樣本、序列和詞元,從而更深入地理解有效數據的特徵。我們的基於影響的推理歸因(Infra)揭示了數學和編程任務之間非平凡的跨領域效應:高難度的數學樣本提升了數學和編程推理能力,而低難度的編程任務最有效地提升了編程推理能力。基於這些發現,我們引入了一種簡單而有效的數據集重新加權策略,通過翻轉任務難度,將AIME24的準確率從10%提升至20%,並將Qwen2.5-7B-Instruct在LiveCodeBench上的準確率從33.8%提升至35.3%。此外,我們的細粒度歸因揭示了序列級別的探索行為增強了數學和編程的推理性能,而詞元級別的影響模式在數學和編程推理中有所不同:前者偏好自然語言邏輯連接詞,後者則強調結構化語法。
本综述深入分析了人工智能辅助软件开发中的两种新兴范式:氛围编码(vibe coding)与代理编码(agentic coding)。尽管两者均依托于大型语言模型(LLMs),但在自主性、架构设计及开发者角色方面存在本质差异。氛围编码强调通过基于提示的对话式工作流实现直觉化的人机交互,支持构思、实验与创意探索。相比之下,代理编码则通过目标驱动的代理实现自主软件开发,这些代理能够规划、执行、测试并迭代任务,所需人工干预极少。我们提出了一套详尽的分类体系,涵盖概念基础、执行模型、反馈循环、安全机制、调试策略及现实工具生态系统。通过对比工作流分析及20个详细用例,我们展示了氛围系统在早期原型设计与教育领域的优势,而代理系统则在企业级自动化、代码库重构及CI/CD集成方面表现卓越。此外,我们还探讨了混合架构中的新兴趋势,即自然语言界面与自主执行管道的结合。最后,我们为代理式AI的未来发展绘制了路线图,概述了构建可信、可解释且协作的系统所需的基础设施。我们的研究结果表明,成功的AI软件工程并非在于选择单一范式,而在于将它们的优势统一整合到以人为中心的开发生命周期中。
現代大型推理模型通過採用複雜的推理策略展現出令人印象深刻的問題解決能力。然而,這些模型往往難以在效率和效果之間取得平衡,經常為簡單問題生成不必要的冗長推理鏈。在本研究中,我們提出了AdaCtrl,這是一個新穎的框架,旨在支持難度感知的自適應推理預算分配以及用戶對推理深度的顯式控制。AdaCtrl根據自我評估的問題難度動態調整其推理長度,同時允許用戶手動控制預算,以優先考慮效率或效果。這是通過一個兩階段的訓練管道實現的:首先是初始的冷啟動微調階段,以培養模型自我感知難度並調整推理預算的能力,隨後是一個難度感知的強化學習(RL)階段,該階段在線訓練過程中根據模型不斷演進的能力來精煉其自適應推理策略並校準其難度評估。為了實現直觀的用戶交互,我們設計了顯式的長度觸發標籤,作為預算控制的一個自然界面。實證結果表明,與同樣包含微調和RL的標準訓練基線相比,AdaCtrl根據估計的難度調整推理長度,在需要精細推理的更具挑戰性的AIME2024和AIME2025數據集上,分別將響應長度減少了10.06%和12.14%,並在MATH500和GSM8K數據集上,分別減少了62.05%和91.04%,這些數據集更適合簡潔的響應。此外,AdaCtrl使用戶能夠精確控制推理預算,從而生成滿足特定需求的定制響應。
大型推理模型(LRMs)因生成最终答案所需的思维链(CoT)过长而受到批评,导致首次令牌延迟和整体延迟较高。通常,LRMs的CoT混合了多个思维单元;每个单元试图为原始查询生成一个候选答案。因此,提高效率的一个自然想法是减少单元数量。然而,由于传统CoT中的思维单元无法被明确管理,这一目标颇具挑战性。本文引入了多轮分解(MinD)方法,将传统CoT解码为一系列明确、结构化且轮次化的交互,以弥合这一差距。在MinD中,模型对查询提供多轮响应,每轮包含一个思维单元并产生相应的答案。后续轮次可以对先前轮次的思维和答案部分进行反思、验证、修正或探索替代方法。这不仅使答案的传递更为迅速,还使得对迭代推理过程的显式控制成为可能(即用户可在任意轮次停止或继续)。我们采用监督微调(SFT)后接强化学习(RL)的范式来实现MinD。首先,我们通过提示另一个大语言模型(LLM)将LRM的输出重述为多轮格式,然后使用此类数据对LRM进行调优。观察到调优后的模型倾向于消耗比原始模型更多的令牌(可能是由于多轮格式引入了额外的答案令牌),我们主张利用如GRPO等RL算法,优先选择轮次较少且正确的输出。在MATH数据集上使用R1-Distill模型进行训练,MinD能够在保持MATH-500、AIME24、AMC23和GPQA-Diamond等推理基准上竞争力的同时,实现输出令牌使用量和首次令牌时间(TTFT)约70%的减少。
視覺自回歸(VAR)建模因其創新的下一尺度預測方法而備受關注,該方法在效率、可擴展性和零樣本泛化方面帶來了顯著提升。然而,VAR固有的從粗到細的方法導致推理過程中鍵值(KV)緩存呈指數級增長,造成大量記憶體消耗和計算冗餘。為解決這些瓶頸,我們引入了ScaleKV,這是一個專為VAR架構設計的新型KV緩存壓縮框架。ScaleKV基於兩個關鍵觀察:變壓器層之間不同的緩存需求以及不同尺度下的注意力模式差異。基於這些洞察,ScaleKV將變壓器層分為兩類功能組:草圖生成器和精細化器。草圖生成器在多個尺度上展現分散的注意力,因此需要更大的緩存容量。相反,精細化器將注意力集中在當前令牌圖上以處理局部細節,從而大大減少所需的緩存容量。ScaleKV通過識別特定尺度的草圖生成器和精細化器來優化多尺度推理管道,實現了針對每個尺度的差異化緩存管理。在最先進的文本到圖像VAR模型家族Infinity上的評估表明,我們的方法有效地將所需的KV緩存記憶體減少至10%,同時保持了像素級的保真度。
口語不僅通過詞語傳達意義,還依賴語調、情感及重音來表達。句子重音,即對句中特定詞語的強調,對於傳達說話者意圖至關重要,這一現象在語言學領域已得到廣泛研究。本研究提出了WHISTRESS,一種無需對齊的方法,旨在增強轉錄系統的句子重音檢測能力。為支持此任務,我們開發了TINYSTRESS-15K,這是一個可擴展的、用於句子重音檢測任務的合成訓練數據集,其生成過程完全自動化。我們在TINYSTRESS-15K上訓練WHISTRESS,並與多個競爭基準進行對比評估。結果表明,WHISTRESS在無需訓練或推理階段額外輸入先驗信息的情況下,性能超越現有方法。值得注意的是,儘管基於合成數據訓練,WHISTRESS在多樣化基準測試中展現出強大的零樣本泛化能力。項目頁面:https://pages.cs.huji.ac.il/adiyoss-lab/whistress。
長鏈思維(CoT)顯著提升了大型語言模型(LLM)的推理能力。然而,冗長的推理軌跡導致效率低下和首個令牌生成時間(TTFT)增加。我們提出了一種新穎的訓練範式,利用強化學習(RL)來引導推理型LLM在多跳問題中交替進行思考和回答。我們觀察到,模型天生具備交替推理的能力,這一能力可通過RL進一步增強。我們引入了一種簡單而有效的基於規則的獎勵機制,以激勵正確的中間步驟,這通過利用交替推理過程中產生的中間信號,引導策略模型走向正確的推理路徑。在五個不同數據集和三種RL算法(PPO、GRPO和REINFORCE++)上進行的大量實驗表明,相較於傳統的“思考-回答”推理方式,我們的方法在不依賴外部工具的情況下,實現了持續的改進。具體而言,我們的方法平均將TTFT降低了80%以上,並在Pass@1準確率上提升了高達19.3%。此外,僅在問答和邏輯推理數據集上訓練的我們的方法,展現出對複雜推理數據集(如MATH、GPQA和MMLU)的強大泛化能力。同時,我們進行了深入分析,揭示了條件獎勵建模中的多項有價值的洞見。
以数据为中心的蒸馏技术,包括数据增强、选择与混合,为创建更小、更高效且保留强大推理能力的学生大型语言模型(LLMs)提供了一条充满前景的路径。然而,目前仍缺乏一个全面的基准来系统评估每种蒸馏方法的效果。本文介绍了DC-CoT,这是首个从方法、模型和数据三个维度探究链式思维(CoT)蒸馏中数据操作的数据中心化基准。通过利用多种教师模型(如o4-mini、Gemini-Pro、Claude-3.5)及学生架构(如3B、7B参数),我们严格评估了这些数据操作对学生模型在多个推理数据集上表现的影响,重点关注了分布内(IID)与分布外(OOD)泛化能力,以及跨领域迁移。我们的研究成果旨在提供可操作的见解,并确立通过数据为中心的技术优化CoT蒸馏的最佳实践,最终促进开发出更易获取且能力更强的推理模型。数据集可访问https://huggingface.co/datasets/rana-shahroz/DC-COT,代码则共享于https://anonymous.4open.science/r/DC-COT-FF4C/。
視覺語言模型(VLMs)在許多直接的多模態任務中表現出色,但卻難以將這種能力轉化為在互動性強、視覺豐富的環境(如遊戲)中的有效決策。這種“知與行”的差距顯著限制了它們作為自主代理的潛力,因為領先的VLMs在簡單遊戲中往往表現不佳。為解決這一問題,我們引入了VLM-Gym,這是一個精心設計的強化學習(RL)環境,包含多樣化的視覺遊戲,具有統一的接口和可調節的組合難度,專門為可擴展的多遊戲並行訓練而設計。利用VLM-Gym,我們訓練了G0模型,這些模型通過純粹的RL驅動自我進化,展現了湧現的感知和推理模式。為了進一步應對遊戲多樣性帶來的挑戰,我們開發了G1模型。G1在RL微調之前引入了感知增強的冷啟動策略。我們最終的G1模型在所有遊戲中均超越了其教師模型,並超越了領先的專有模型如Claude-3.7-Sonnet-Thinking。系統分析揭示了一個有趣的發現:感知和推理能力在RL訓練過程中相互促進。我們在https://github.com/chenllliang/G1上發布了包括VLM-Gym和RL訓練的源代碼,以促進未來在提升VLMs作為能力互動代理方面的研究。
得益於大規模自然場景圖像上的對比訓練視覺編碼器,大型多模態模型(LMMs)在各種視覺感知任務中取得了顯著成就。然而,基於摘要描述的對比學習固有局限性,從根本上限制了模型在細緻推理,尤其是幾何問題求解等關鍵場景中的能力。為提升幾何理解,我們提出了一種新穎的視覺編碼器硬負樣本對比學習框架,該框架結合了基於圖像的對比學習——利用擾動圖表生成代碼創建的生成式硬負樣本,以及基於文本的對比學習——採用修改後的幾何描述衍生的規則負樣本和基於標題相似度選擇的檢索負樣本。我們使用我們提出的強負樣本學習方法,即MMCLIP(多模態數學CLIP)訓練CLIP模型,隨後訓練一個用於幾何問題求解的LMM。實驗表明,我們訓練的模型MMGeoLM在三項幾何推理基準測試中顯著優於其他開源模型。即便在7B規模下,它也能與GPT-4o等強大的閉源模型相媲美。我們進一步研究了不同負樣本構建方法及負樣本數量對LMM幾何推理性能的影響,得出了富有成效的結論。代碼和數據集已公開於https://github.com/THU-KEG/MMGeoLM。
近期,視頻生成模型的進展激發了對能夠模擬真實環境的世界模型的興趣。雖然導航已被廣泛研究,但模仿現實世界力量的物理意義互動仍大多未被深入探討。在本研究中,我們探討了使用物理力量作為視頻生成的控制信號,並提出了力量提示,使用戶能夠通過局部點力量(如戳植物)和全局風力場(如風吹布料)與圖像互動。我們展示了這些力量提示能夠利用原始預訓練模型中的視覺和運動先驗,使視頻對物理控制信號做出真實反應,而無需在推理時使用任何3D資產或物理模擬器。力量提示的主要挑戰在於難以獲得高質量的配對力量-視頻訓練數據,這在現實世界中是由於獲取力量信號的困難,而在合成數據中則是由於物理模擬器的視覺質量和領域多樣性的限制。我們的主要發現是,當視頻生成模型適應於遵循由Blender合成的視頻中的物理力量條件時,即使僅有少量物體的演示,也能表現出顯著的泛化能力。我們的方法能夠生成模擬多種幾何形狀、場景和材料的力量的視頻。我們還試圖理解這種泛化的來源,並進行了消融實驗,揭示了兩個關鍵要素:視覺多樣性和訓練期間使用特定文本關鍵詞。我們的方法僅在四塊A100 GPU上訓練了大約15k個訓練樣本一天,並在力量遵循和物理真實性方面優於現有方法,使世界模型更接近於現實世界的物理互動。我們在項目頁面上發布了所有數據集、代碼、權重和互動視頻演示。
近期AI代理的進展已展現出其在推動與支持科學發現方面日益增長的潛力。在本研究中,我們介紹了MLR-Bench,這是一個用於評估AI代理在開放式機器學習研究上的全面基準測試。MLR-Bench包含三個關鍵組成部分:(1) 來自NeurIPS、ICLR和ICML研討會的201項研究任務,涵蓋多樣化的ML主題;(2) MLR-Judge,一個結合了基於LLM的評審者與精心設計的評審標準的自動化評估框架,用以評判研究質量;(3) MLR-Agent,一個模塊化的代理框架,能夠通過四個階段完成研究任務:創意生成、提案制定、實驗執行及論文撰寫。我們的框架支持對這些不同研究階段的逐步評估,以及對最終研究論文的端到端評價。隨後,我們利用MLR-Bench評估了六個前沿LLM和一個高級編程代理,發現雖然LLM在生成連貫想法和結構良好的論文方面表現出色,但當前的編程代理經常(例如,在80%的情況下)產生虛構或未經驗證的實驗結果——這對科學可靠性構成了重大障礙。我們通過人工評估驗證了MLR-Judge,顯示其與專家評審者之間的高度一致性,支持其作為研究評估可擴展工具的潛力。我們開源了MLR-Bench,以幫助社群基準測試、診斷並改進AI研究代理,朝著可信賴且透明的科學發現邁進。
本文介紹了InfantAgent-Next,這是一個能夠以多模態方式與電腦互動的通用型代理,涵蓋文本、圖像、音頻和視頻。與現有方法不同,這些方法要么圍繞單一大型模型構建複雜的工作流程,要么僅提供工作流程的模塊化,我們的代理在高度模塊化的架構中整合了基於工具和純視覺的代理,使不同模型能夠以逐步的方式協同解決解耦的任務。我們的通用性不僅體現在能夠評估純視覺的現實世界基準(即OSWorld),還能夠評估更通用或工具密集型的基準(例如GAIA和SWE-Bench)。具體而言,我們在OSWorld上達到了7.27%的準確率,高於Claude-Computer-Use。代碼和評估腳本已在https://github.com/bin123apple/InfantAgent開源。
大型語言模型(LLMs)日益增長的計算需求使得高效的推理與激活策略變得愈發關鍵。儘管近期方法如專家混合(Mixture-of-Experts, MoE)利用選擇性激活,但需要專門的訓練,而無需訓練的稀疏激活方法則通過其即插即用的設計提供了更廣泛的適用性和更優的資源效率。然而,許多現有方法僅依賴隱藏狀態的幅度來決定激活,導致高近似誤差和次優的推理精度。為解決這些限制,我們提出了WINA(Weight Informed Neuron Activation),這是一種新穎、簡單且無需訓練的稀疏激活框架,它同時考慮隱藏狀態的幅度和權重矩陣的列向ℓ₂範數。我們證明,這導致了一種稀疏化策略,能夠獲得最優的近似誤差界限,其理論保證比現有技術更為嚴格。實證上,WINA在相同稀疏度下,於多樣化的LLM架構和數據集上,平均性能比最先進的方法(如TEAL)高出最多2.94%。這些結果將WINA定位為LLM推理中無需訓練稀疏激活的新性能前沿,推動了無需訓練稀疏激活方法的發展,並為高效推理設立了堅實的基準。源代碼可在https://github.com/microsoft/wina獲取。
近期,自動語音辨識(ASR)的顯著進步主要得益於大規模語料庫的應用。然而,在資源有限的情況下,將覆蓋範圍擴展至多樣化語言仍是一大挑戰。本文提出「語音回譯」這一可擴展的流程,透過現成的文本轉語音(TTS)模型,將大規模文本語料轉化為合成語音,從而提升多語言ASR模型的效能。我們證明,僅需數十小時的真實轉錄語音,即可有效訓練TTS模型,生成數百倍於原始數據量的高質量合成語音。為評估合成語音的質量,我們開發了一套基於可理解性的評估框架,並確定了合成數據對ASR訓練有益時的明確閾值。利用語音回譯技術,我們在十種語言中生成了超過50萬小時的合成語音,並對Whisper-large-v3進行了持續預訓練,實現了平均轉錄錯誤率降低超過30%的成果。這些結果凸顯了語音回譯在增強多語言ASR系統方面的可擴展性和有效性。
多模態大型語言模型(MLLMs)在多樣化任務中展現了卓越的能力,但在空間推理方面仍顯著落後於人類。我們通過變換驅動的視覺推理(TVR)這一挑戰性任務來探討這一差距,該任務要求在不同視角下識別圖像中物體的變換。雖然傳統的監督微調(SFT)在跨視角設置中無法生成連貫的推理路徑,而稀疏獎勵的強化學習(RL)則面臨探索效率低下和收斂緩慢的問題。為解決這些限制,我們提出了STAR-R1,這是一個新穎的框架,它將單階段RL範式與專為TVR設計的細粒度獎勵機制相結合。具體而言,STAR-R1獎勵部分正確性,同時懲罰過度枚舉和被動無作為,從而實現高效探索和精確推理。全面評估表明,STAR-R1在所有11項指標上均達到了最先進的性能,在跨視角場景中比SFT高出23%。進一步分析揭示了STAR-R1的擬人化行為,並強調了其比較所有物體以提升空間推理能力的獨特優勢。我們的工作為推進MLLMs和推理模型的研究提供了關鍵見解。代碼、模型權重和數據將在https://github.com/zongzhao23/STAR-R1 公開提供。
儘管掩碼擴散模型(Masked Diffusion Models, MDMs),如LLaDA,為語言建模提供了一個前景廣闊的範式,但在通過強化學習將這些模型與人類偏好對齊方面,相關努力相對較少。這一挑戰主要源於基於證據下界(Evidence Lower Bound, ELBO)的似然估計在偏好優化中所需的高方差。為解決這一問題,我們提出了方差減小偏好優化(Variance-Reduced Preference Optimization, VRPO),該框架正式分析了ELBO估計器的方差,並推導了偏好優化梯度的偏差和方差界限。基於這一理論基礎,我們引入了無偏方差減小策略,包括最優蒙特卡羅預算分配和對立採樣,這些策略顯著提升了MDM對齊的性能。我們通過將VRPO應用於LLaDA來展示其有效性,由此產生的模型LLaDA 1.5在數學(GSM8K +4.7)、代碼(HumanEval +3.0, MBPP +1.8)和對齊基準(IFEval +4.0, Arena-Hard +4.3)上均一致且顯著超越了其僅基於SFT的前身。此外,與強大的語言MDMs和ARMs相比,LLaDA 1.5在數學表現上展現出極高的競爭力。項目頁面:https://ml-gsai.github.io/LLaDA-1.5-Demo/。
大型語言模型擅長於模式匹配,但在系統性的組合泛化方面往往表現不足。我們提出了覆蓋原則:這是一個以數據為中心的框架,表明主要依賴模式匹配來完成組合任務的模型,無法可靠地泛化到在相同上下文中使用時能產生相同結果的片段替換之外。我們證明,這一框架對Transformer模型的泛化能力具有強大的預測力。首先,我們推導並實證確認,實現兩跳泛化所需的訓練數據量至少隨標記集大小的平方增長,且訓練數據效率不會因參數規模擴大20倍而提升。其次,對於存在路徑歧義的組合任務,即一個變量通過多條計算路徑影響輸出結果的情況,我們展示了Transformer學習到的上下文依賴狀態表示會削弱其性能與互操作性。第三,思維鏈監督雖能提升多跳任務的訓練數據效率,但仍難以應對路徑歧義問題。最後,我們構建了一種基於機制的分類法,區分了神經網絡實現泛化的三種方式:基於結構的(受覆蓋範圍限制)、基於屬性的(利用代數不變性)及共享運算符的(通過函數重用)。這一概念視角為我們的研究結果提供了背景,並指明了實現系統性組合性所需的新架構思路。總體而言,覆蓋原則為理解組合推理提供了一個統一的視角,並強調了要實現真正的系統性組合性,需要在架構或訓練方法上進行根本性的創新。
現今最先進的成員推斷攻擊(MIAs)通常需要訓練多個參考模型,這使得將這些攻擊擴展到大型預訓練語言模型(LLMs)變得困難。因此,先前的研究要么依賴於避免訓練參考模型的較弱攻擊(例如,微調攻擊),要么依賴於應用於小規模模型和數據集的較強攻擊。然而,較弱的攻擊已被證明是脆弱的——其成功率接近隨機——而在簡化設置中強攻擊的洞察並不能轉移到當今的LLMs上。這些挑戰引發了一個重要問題:先前工作中觀察到的限制是由於攻擊設計選擇,還是MIAs在LLMs上根本無效?我們通過將LiRA——最強的MIAs之一——擴展到參數範圍從10M到1B的GPT-2架構,並在C4數據集上訓練超過20B個token的參考模型,來解決這個問題。我們的結果在三個關鍵方面推進了對LLMs上MIAs的理解:(1)強MIAs可以在預訓練的LLMs上成功;(2)然而,在實際設置中,其有效性仍然有限(例如,AUC<0.7);(3)MIA成功與相關隱私指標之間的關係並不像先前工作所暗示的那樣直接。
基础模型正日益成为更优秀的自主编程者,这提升了它们可能自动化执行危险网络攻击操作的前景。当前的前沿模型审计探究了此类代理的网络安全风险,但多数未能考虑到现实世界中对手可获得的自由度。特别是,在强大的验证机制和财务激励下,攻击性网络安全的代理易于被潜在对手进行迭代改进。我们主张,评估应在网络安全的背景下考虑扩展的威胁模型,强调对手在有状态和无状态环境中,在固定的计算预算内可能拥有的不同程度自由度。我们的研究表明,即使计算预算相对较小(在我们的研究中为8个H100 GPU小时),对手也能将代理在InterCode CTF上的网络安全能力相对于基线提高超过40%——无需任何外部协助。这些结果强调了以动态方式评估代理网络安全风险的必要性,从而描绘出更具代表性的风险图景。
傳統的基於人類反饋的強化學習(RLHF)通常依賴於獎勵模型,並經常假設如Bradley-Terry模型這樣的偏好結構,這些模型可能無法準確捕捉真實人類偏好的複雜性(例如,不可傳遞性)。基於納什均衡的人類反饋學習(NLHF)提供了一種更為直接的替代方案,通過將問題框架為尋找由這些偏好定義的博弈的納什均衡。在本研究中,我們引入了納什鏡像近端(Nash-MP),這是一種在線NLHF算法,利用鏡像近端優化方案實現快速且穩定地收斂到納什均衡。我們的理論分析表明,Nash-MP展現出對beta正則化納什均衡的最後迭代線性收斂性。具體而言,我們證明了最優策略的KL散度以(1+2beta)^{-N/2}的速率遞減,其中N是偏好查詢的次數。我們進一步展示了對可利用性差距以及對數概率的跨度半範數的最後迭代線性收斂性,所有這些速率均與動作空間的大小無關。此外,我們提出並分析了一種近似版本的Nash-MP,其中近端步驟通過隨機策略梯度進行估計,使算法更接近實際應用。最後,我們詳細介紹了一種用於微調大型語言模型的實踐實施策略,並展示了其競爭性能及與現有方法的兼容性。
強化學習在提升大型語言模型的推理能力方面展現出潛力,然而由於在推展階段的樣本效率低下,其擴展性受到限制。現有方法試圖通過基於問題難度的調度來提高效率,但這些方法存在問題難度估計不穩定且偏差的問題,未能捕捉到強化學習訓練中模型能力與問題難度之間的對齊,導致結果次優。為解決這些限制,本文引入了能力-難度對齊採樣(Competence-Difficulty Alignment Sampling, CDAS),該方法通過聚合問題的歷史表現差異來實現問題難度的準確且穩定估計。隨後,模型能力被量化,以使用固定點系統自適應地選擇與模型當前能力相匹配的難度問題。在一系列具有挑戰性的數學基準測試中,實驗結果顯示CDAS在準確性和效率上均取得了顯著提升。CDAS相較於基準方法達到了最高的平均準確率,並與DAPO中的競爭策略動態採樣相比展現出顯著的速度優勢,後者比CDAS慢2.33倍。
隨著推理模型在複雜自然語言任務中的成功日益顯著,信息檢索(IR)領域的研究者們開始探索如何將類似的推理能力整合到基於大型語言模型(LLMs)的段落重排序器中。這些方法通常利用LLM生成一個明確的、逐步的推理過程,然後得出最終的相關性預測。然而,推理是否真的能提升重排序的準確性?本文深入探討這一問題,通過在相同訓練條件下比較基於推理的逐點重排序器(ReasonRR)與標準的非推理逐點重排序器(StandardRR),發現StandardRR通常優於ReasonRR。基於這一觀察,我們進一步研究了推理對ReasonRR的重要性,通過禁用其推理過程(ReasonRR-NoReason),意外發現ReasonRR-NoReason比ReasonRR更為有效。探究這一結果的原因,我們發現基於推理的重排序器受限於LLM的推理過程,這導致其傾向於極化的相關性評分,從而未能考慮段落的局部相關性,而這正是逐點重排序器準確性的關鍵因素。
稀疏自编码器(Sparse Autoencoders, SAEs)是机制可解释性(Mechanistic Interpretability, MI)领域中用于将神经网络激活分解为可解释特征的重要工具。然而,识别一组规范特征的愿望因不同训练运行中学习到的SAE特征的不一致性而受到挑战,这削弱了MI研究的可靠性和效率。本立场文件主张,机制可解释性应优先考虑SAE中的特征一致性——即在不同独立运行中可靠地收敛到等效特征集。我们建议使用成对字典平均相关系数(Pairwise Dictionary Mean Correlation Coefficient, PW-MCC)作为操作化一致性的实用指标,并证明通过适当的架构选择可以实现高水平的一致性(在LLM激活上,TopK SAEs的PW-MCC达到0.80)。我们的贡献包括详细阐述了优先考虑一致性的好处;提供了理论依据和利用模型生物进行的合成验证,验证了PW-MCC作为真实恢复的可靠代理;并将这些发现扩展到现实世界的LLM数据,其中高特征一致性与学习到的特征解释的语义相似性密切相关。我们呼吁整个社区转向系统地测量特征一致性,以促进MI领域稳健的累积进展。
大型語言模型(LLMs)在生物醫學問答領域展現了卓越的能力,但其在實際臨床諮詢中的應用仍面臨核心挑戰。現有系統依賴於單向信息傳輸模式,患者需在一輪對話中完整描述症狀,當主訴模糊時,往往導致診斷建議缺乏針對性。基於監督學習的傳統多輪對話方法受限於靜態數據驅動範式,缺乏泛化能力,難以智能提取關鍵臨床信息。為解決這些限制,我們提出了DoctorAgent-RL,這是一個基於強化學習(RL)的多智能體協作框架,將醫療諮詢建模為不確定性下的動態決策過程。醫生智能體通過與患者智能體的多輪互動,在RL框架內持續優化其提問策略,並根據諮詢評估器提供的綜合獎勵動態調整信息收集路徑。這種RL微調機制使LLMs能夠自主開發符合臨床推理邏輯的互動策略,而非僅僅模仿現有對話數據中的模式。值得注意的是,我們構建了MTMedDialog,這是首個能夠模擬患者互動的英文多輪醫療諮詢數據集。實驗表明,DoctorAgent-RL在多輪推理能力和最終診斷性能上均優於現有模型,展現了在輔助臨床諮詢中的實用價值。 https://github.com/JarvisUSTC/DoctorAgent-RL
近年來,大型語言模型(LLMs)的進展引入了潛在推理作為自迴歸推理的一種有前景的替代方案。通過利用先前步驟的隱藏狀態進行內部計算,潛在推理能夠從更具信息量的特徵中獲益,而非依賴於採樣離散的思維鏈(CoT)路徑。然而,潛在推理方法往往與LLMs不相容,因為其連續性範式與自迴歸生成的離散性質相衝突。此外,這些方法依賴於CoT軌跡進行訓練,因此未能充分利用LLMs固有的推理模式。在本研究中,我們通過強化學習(RL)利用LLMs的內在能力來探索潛在推理。為此,我們引入了混合推理策略優化(HRPO),這是一種基於RL的混合潛在推理方法,它(1)通過可學習的門控機制將先前的隱藏狀態整合到採樣的令牌中,(2)在訓練初期主要使用令牌嵌入,並逐步引入更多的隱藏特徵。這種設計保持了LLMs的生成能力,並激勵使用離散和連續表示的混合推理。此外,混合HRPO通過令牌採樣將隨機性引入潛在推理,從而實現了基於RL的優化,而無需CoT軌跡。在各種基準測試中的廣泛評估表明,HRPO在知識密集型和推理密集型任務中均優於先前的方法。此外,經過HRPO訓練的LLMs仍保持可解釋性,並展現出跨語言模式和更短完成長度等有趣行為,凸顯了我們基於RL方法的潛力,並為未來潛在推理的研究提供了洞見。
在复杂未知环境中实现可推广的主动地图构建,仍是移动机器人面临的一项关键挑战。现有方法受限于训练数据不足及探索策略保守,在布局多样、连通性复杂的场景中表现出有限的泛化能力。为支持可扩展的训练与可靠的评估,我们引入了GLEAM-Bench,这是首个专为可推广主动地图构建设计的大规模基准测试,包含来自合成与真实扫描数据集的1,152个多样化三维场景。在此基础上,我们提出了GLEAM,一种统一的主动地图构建可推广探索策略。其卓越的泛化能力主要源于我们的语义表示、长期可达目标及随机化策略。在128个未见过的复杂场景上,GLEAM显著超越了现有最先进方法,实现了66.50%的覆盖率(提升9.49%),同时保持了高效的轨迹规划并提升了地图构建精度。项目页面:https://xiao-chen.tech/gleam/。
大型語言模型(LLMs)通常會對齊安全指南,拒絕有害指令。近期出現的一種名為「消融」(abliteration)的攻擊方法,能夠隔離並抑制最關鍵的拒絕行為潛在方向,使模型生成不道德的內容。我們提出了一種防禦策略,通過改變模型生成拒絕的方式來應對。我們構建了一個擴展拒絕數據集,其中包含有害提示以及完整解釋拒絕原因的響應。隨後,我們在Llama-2-7B-Chat和Qwen2.5-Instruct(1.5B和3B參數)模型上對該擴展拒絕數據集進行微調,並在一組有害提示上評估了改進後的系統。實驗結果顯示,擴展拒絕模型保持了較高的拒絕率,最多僅下降10%,而基準模型在消融攻擊後拒絕率下降了70-80%。廣泛的安全性和實用性評估表明,擴展拒絕微調能夠有效中和消融攻擊,同時保持模型的整體性能。
強化學習(RL)在近期大型語言模型(LLMs)數學能力提升中扮演了核心角色,通過二元驗證信號實現自我改進。相比之下,監督學習(SL)很少被考慮用於此類驗證驅動的訓練,主要因其過度依賴參考答案且無法反思錯誤。在本研究中,我們挑戰了自我改進僅限於RL的普遍觀念,提出了負面感知微調(NFT)——一種監督式方法,使LLMs能夠反思其失敗並在無外部指導的情況下自主改進。在線上訓練中,NFT並未丟棄自我生成的負面答案,而是構建了一個隱含的負面策略來對其建模。此隱含策略與我們旨在優化正面數據的同一正向LLM參數化,從而實現對所有LLM生成內容的直接策略優化。我們在7B和32B模型上進行了數學推理任務的實驗。結果一致表明,通過額外利用負面反饋,NFT相較於如拒絕採樣微調等SL基線有顯著提升,匹配甚至超越了如GRPO和DAPO等領先的RL算法。此外,我們證明了在嚴格策略訓練下,NFT與GRPO實際上是等價的,儘管它們源自完全不同的理論基礎。我們的實驗與理論發現彌合了SL與RL方法在二元反饋學習系統中的差距。
大型語言模型(LLMs)容易產生幻覺,特別是在多跳躍和推理密集的任務中,如數學問題解決。雖然結果獎勵模型僅驗證最終答案,但過程獎勵模型(PRMs)則對每個中間步驟進行評分,以引導生成連貫的解決方案。我們介紹了PathFinder-PRM,這是一種新穎的層次化、錯誤感知的判別式PRM,它首先對每一步的數學和一致性錯誤進行分類,然後結合這些細粒度的信號來估計步驟的正確性。為了訓練PathFinder-PRM,我們通過豐富人類註釋的PRM800K語料庫和RLHFlow Mistral追蹤數據,構建了一個包含40萬個樣本的數據集,並添加了三維步驟級標籤。在PRMBench上,PathFinder-PRM達到了67.7的新PRMScore最高紀錄,超越了之前的最佳成績(65.5),同時使用的數據量減少了三倍。當應用於獎勵引導的貪婪搜索時,我們的模型在prm@8上達到了48.3,比最強的基線提高了1.5分。這些結果表明,解耦的錯誤檢測和獎勵估計不僅提升了細粒度的錯誤檢測能力,還顯著改善了端到端、獎勵引導的數學推理,並提高了數據效率。
近十年來,學術界對神經網絡中的後門進行了深入研究,主要集中在分類任務上,即攻擊者操縱模型預測。儘管這些改變預測的攻擊明顯具有惡意性,但其在現實世界中的直接影響尚不明確。本文介紹了一類基於架構後門最新進展的新型且更為強大的後門。我們展示了如何專門設計這些後門以利用批處理推理這一常見的硬件利用技術,從而實現大規模用戶數據操縱與竊取。通過針對批處理過程,這些架構後門促進了並發用戶請求之間的信息洩露,並允許攻擊者完全控制同一批次內其他用戶的模型響應。換言之,能夠改變模型架構的攻擊者可以設置並竊取同一批次內其他用戶的模型輸入與輸出。我們證明,此類攻擊不僅可行,而且效果驚人,易於注入主流模型架構,對用戶隱私與系統完整性構成真正惡意的威脅。關鍵在於,為應對這一新型漏洞,我們提出了一種確定性的防禦策略,該策略針對這一新攻擊向量提供了形式化保證,與以往依賴大型語言模型來發現後門的工作不同。我們的防禦策略採用了一種新穎的信息流控制機制,通過分析模型圖並證明同一批次內不同用戶輸入之間的非干擾性。利用這一防禦策略,我們對Hugging Face託管的模型進行了大規模分析,發現超過200個模型因使用動態量化而導致批次條目之間(非故意)的信息洩露。
後訓練在提升大型語言模型(LLMs)的推理能力方面已展現其重要性。主要的後訓練方法可分為監督式微調(SFT)和強化式微調(RFT)。SFT效率高且適合小型語言模型,但可能導致過度擬合並限制大型模型的推理能力。相比之下,RFT通常能帶來更好的泛化效果,但高度依賴基礎模型的強度。為解決SFT和RFT的局限性,我們提出了統一微調(UFT),這是一種新穎的後訓練範式,將SFT和RFT統一為一個整合的過程。UFT使模型能夠有效探索解決方案,同時融入有信息量的監督信號,彌補了現有方法在記憶與思考之間的差距。值得注意的是,無論模型大小如何,UFT在整體上均優於SFT和RFT。此外,我們從理論上證明了UFT打破了RFT固有的指數級樣本複雜度瓶頸,首次展示了統一訓練能夠在長程推理任務上指數級加速收斂。
大型语言模型(LLMs)在通过搜索算法进行复杂推理方面表现出色,然而当前的策略常因对语义等价步骤的冗余探索而消耗大量标记。现有的语义相似性方法在特定领域(如数学推理)中难以准确识别此类等价性。为此,我们提出了EquivPruner,一种简单而有效的方法,旨在LLM推理搜索过程中识别并剪枝语义等价的动作。同时,我们引入了MathEquiv,这是首个为数学陈述等价性创建的数据集,它支持训练一个轻量级的等价性检测器。跨多种模型和任务的广泛实验表明,EquivPruner显著减少了标记消耗,提升了搜索效率,并时常增强了推理准确性。例如,在将EquivPruner应用于Qwen2.5-Math-7B-Instruct模型处理GSM8K数据集时,标记消耗减少了48.1%,同时准确性也有所提高。我们的代码已发布于https://github.com/Lolo1222/EquivPruner。
越來越多的自回歸模型,如MAR、FlowAR、xAR和Harmon,採用擴散採樣來提升圖像生成的質量。然而,這一策略導致推理效率低下,因為擴散採樣通常需要50到100步來生成一個標記。本文探討如何有效解決這一問題。我們的核心動機是,隨著自回歸過程中生成更多標記,後續標記的分佈會受到更多約束,從而更容易採樣。直觀地解釋,如果模型已經生成了狗的一部分,剩餘的標記必須完成狗的圖像,因此受到更多限制。實證證據支持我們的動機:在生成後期階段,下一個標記可以通過多層感知器很好地預測,表現出低方差,並且遵循從噪聲到標記的更接近直線的去噪路徑。基於這一發現,我們引入了擴散步長退火(DiSA),這是一種無需訓練的方法,隨著生成更多標記,逐漸減少擴散步數,例如在開始時使用50步,並在後期逐漸減少到5步。由於DiSA源自我們對自回歸模型中擴散的特定發現,它與現有僅針對擴散的加速方法互補。DiSA只需在現有模型上添加幾行代碼即可實現,儘管簡單,卻能為MAR和Harmon實現5到10倍的推理加速,為FlowAR和xAR實現1.4到2.5倍的加速,同時保持生成質量。
不確定性量化對於評估現代人工智能系統的可靠性與可信度至關重要。在現有方法中,語言化不確定性——即模型通過自然語言表達其置信度——已成為大型語言模型(LLMs)中一種輕量且可解釋的解決方案。然而,其在視覺語言模型(VLMs)中的有效性尚未得到充分研究。本研究對VLMs中的語言化置信度進行了全面評估,涵蓋了三類模型、四個任務領域及三種評估場景。結果顯示,當前VLMs在多樣化任務與設置中常表現出顯著的校準失誤。值得注意的是,視覺推理模型(即基於圖像的思考)始終展現出更好的校準性,這表明特定模態的推理對於可靠的不確定性估計至關重要。為進一步應對校準挑戰,我們引入了視覺置信度感知提示法,這是一種兩階段提示策略,旨在提升多模態設置中的置信度對齊。總體而言,本研究揭示了VLMs跨模態的固有校準失誤。更廣泛地,我們的發現強調了模態對齊與模型忠實性在推進可靠多模態系統中的根本重要性。
近期诸如Gemini-1.5、DeepSeek-V3及Llama-4等大型语言模型,越来越多地采用了专家混合(Mixture-of-Experts, MoE)架构,该架构通过仅激活模型中的一小部分来处理每个标记,从而在效率与性能之间实现了良好的平衡。然而,学术界的研究人员仍缺乏一个完全开放、端到端的MoE平台,以深入探究模型的扩展性、路由机制及专家行为。为此,我们发布了FLAME-MoE,这是一个完全开源的研究套件,包含七个仅解码器模型,其活跃参数范围从3800万至17亿不等,其架构——包含64位专家、采用前8门控及2位共享专家——紧密映射了现代生产级大型语言模型的特点。所有训练数据管道、脚本、日志及检查点均公开,以确保实验的可重复性。在六项评估任务中,FLAME-MoE相较于使用相同浮点运算次数训练的密集基线模型,平均准确率提升了高达3.4个百分点。借助完整的训练轨迹透明度,我们进行了初步分析,结果表明:(i) 专家们逐渐专注于处理不同的标记子集,(ii) 共同激活矩阵保持稀疏,反映了专家使用的多样性,(iii) 路由行为在训练早期即趋于稳定。所有代码、训练日志及模型检查点均可通过https://github.com/cmu-flame/FLAME-MoE获取。
近期如GPT-4o、Gemini 2.0 Flash和Gemini 2.5 Pro等多模态图像生成器在遵循复杂指令、编辑图像及保持概念一致性方面表现出色。然而,它们仍由相互独立的工具包进行评估:缺乏多模态条件的文本到图像(T2I)基准,以及忽视组合语义和常识的定制图像生成基准。我们提出了MMIG-Bench,一个全面的多模态图像生成基准,通过将4,850个丰富注释的文本提示与1,750张多视角参考图像配对,涵盖380个主题,包括人类、动物、物体和艺术风格,统一了这些任务。MMIG-Bench配备了一个三级评估框架:(1)针对视觉伪影和对象身份保持的低级指标;(2)新颖的方面匹配分数(AMS):一种基于视觉问答(VQA)的中级指标,提供细粒度的提示-图像对齐,并显示出与人类判断的强相关性;(3)针对美学和人类偏好的高级指标。利用MMIG-Bench,我们对包括Gemini 2.5 Pro、FLUX、DreamBooth和IP-Adapter在内的17个最先进模型进行了基准测试,并通过32,000次人类评分验证了我们的指标,深入洞察了架构和数据设计。我们将发布数据集和评估代码,以促进严格、统一的评估,并加速多模态图像生成的未来创新。
当前的大型语言模型(LLMs)在社会智能任务中展现出了新兴的能力,包括隐含意义解析(Sravanthi等人,2024)和心理理论推理(Shapira等人,2024),这两者均需深厚的语用理解。然而,LLMs在训练过程中如何获得这一能力仍鲜为人知。在本研究中,我们引入了ALTPRAG,一个基于替代语用概念的数据集,旨在评估不同训练阶段的LLMs能否准确推断出细微的说话者意图。每个实例配对两个语境适宜但语用上截然不同的续写,从而实现对语用解释和对比推理的精细评估。我们系统地评估了22个LLMs在关键训练阶段的表现:预训练、监督微调(SFT)和偏好优化,以探究语用能力的发展。我们的结果表明,即便是基础模型也对语用线索表现出显著的敏感性,且随着模型和数据规模的增加,这种敏感性持续提升。此外,SFT和RLHF进一步促进了能力的提升,特别是在认知语用推理方面。这些发现强调了语用能力作为LLM训练中涌现且组合性质的特征,并为模型与人类交际规范的对齐提供了新的见解。
大型多模态基础模型,特别是在语言和视觉领域,已显著推动了包括机器人技术、自动驾驶、信息检索和基础理解在内的多种任务的进展。然而,这些模型中的许多将物体视为不可分割的整体,忽视了构成它们的部件。理解这些部件及其相关的可供性,为物体的功能性提供了宝贵的洞见,这对于执行广泛任务至关重要。在本研究中,我们引入了一个新颖的现实世界基准——InstructPart,它包含了手工标注的部件分割注释和任务导向的指令,用以评估当前模型在日常情境下理解和执行部件级任务的表现。通过我们的实验,我们证明了即使对于最先进的视觉-语言模型(VLMs)而言,任务导向的部件分割仍是一个具有挑战性的问题。除了我们的基准之外,我们还介绍了一个简单的基线模型,通过使用我们的数据集进行微调,实现了性能的成倍提升。借助我们的数据集和基准,我们旨在促进任务导向部件分割的研究,并增强VLMs在机器人技术、虚拟现实、信息检索及其他相关领域的适用性。项目网站:https://zifuwan.github.io/InstructPart/。
近期如思維鏈提示(Chain-of-Thought prompting)等技術的進步,顯著提升了大型語言模型(LLMs)在零樣本醫療推理上的表現。然而,基於提示的方法往往仍顯淺薄且不穩定,而經過微調的醫療LLMs在分佈變化下泛化能力差,對未見臨床場景的適應性有限。為解決這些限制,我們提出了TAGS,這是一個測試時框架,結合了具備廣泛能力的通用模型與特定領域的專家模型,以提供互補的視角,無需任何模型微調或參數更新。為支持這種通用-專家推理過程,我們引入了兩個輔助模塊:一個分層檢索機制,通過基於語義和推理層次相似性選擇樣本,提供多尺度範例;以及一個可靠性評分器,評估推理一致性以指導最終答案的聚合。TAGS在九個MedQA基準測試中表現出色,將GPT-4o的準確率提升了13.8%,DeepSeek-R1提升了16.8%,並將一個基礎的7B模型從14.1%提升至23.9%。這些結果超越了多個經過微調的醫療LLMs,且無需任何參數更新。代碼將在https://github.com/JianghaoWu/TAGS 提供。
隨著大型音頻語言模型(LALMs)的進步,這些模型通過增強大型語言模型(LLMs)的聽覺能力,預計將在多種聽覺任務中展現出通用性。儘管已出現眾多基準來評估LALMs的性能,但它們仍顯得零散且缺乏系統化的分類。為彌補這一差距,我們進行了一項全面調查,並提出了一個系統化的LALM評估分類法,根據其目標將其分為四個維度:(1) 通用聽覺感知與處理,(2) 知識與推理,(3) 對話導向能力,以及(4) 公平性、安全性與可信度。我們在每個類別中提供了詳細的概述,並強調了該領域的挑戰,為未來的研究方向提供了洞見。據我們所知,這是首個專門聚焦於LALM評估的調查,為學術界提供了清晰的指導。我們將發布所調查論文的集合,並積極維護以支持該領域的持續發展。
尽管通用机器人技术近期取得了进展,但机器人在现实世界中的策略仍远未达到人类的基本能力水平。人类持续与物理世界互动,然而这一丰富的数据资源在机器人学习领域却大多未被充分利用。我们提出了EgoZero,一个极简系统,它能够通过Project Aria智能眼镜捕捉的人类示范数据,在无需任何机器人数据的情况下,学习到稳健的操控策略。EgoZero实现了以下功能:(1) 从野外、以自我为中心的人类示范中提取完整且机器人可执行的动作,(2) 将人类视觉观察压缩为与形态无关的状态表示,以及(3) 进行闭环策略学习,该策略在形态、空间和语义上均具备泛化能力。我们将EgoZero策略部署于Franka Panda夹爪机器人上,展示了在7项操控任务中零样本迁移的成功率高达70%,且每项任务仅需20分钟的数据收集。我们的研究结果表明,野外人类数据可作为现实世界机器人学习的可扩展基础——为机器人迈向拥有丰富、多样且自然训练数据的未来铺平道路。代码与视频可访问https://egozero-robot.github.io获取。
元數據提取對於數據集的編目和保存至關重要,它促進了有效的研究發現與可重複性,尤其是在當前科學研究呈指數級增長的背景下。雖然Masader(Alyafeai等人,2021)為從阿拉伯語自然語言處理數據集的學術文章中提取廣泛的元數據屬性奠定了基礎,但它主要依賴於手動註釋。在本文中,我們介紹了MOLE,這是一個利用大型語言模型(LLMs)自動從涵蓋非阿拉伯語數據集的科學論文中提取元數據屬性的框架。我們的模式驅動方法處理多種輸入格式的完整文檔,並結合了穩健的驗證機制以確保輸出的一致性。此外,我們引入了一個新的基準來評估此任務的研究進展。通過對上下文長度、少樣本學習和網絡瀏覽集成進行系統分析,我們展示了現代LLMs在自動化此任務方面展現出令人鼓舞的成果,強調了未來進一步改進工作以確保一致且可靠性能的必要性。我們向研究社區發布了代碼:https://github.com/IVUL-KAUST/MOLE 和數據集:https://huggingface.co/datasets/IVUL-KAUST/MOLE。
本研究探討大型語言模型(LLMs)中可解釋類別特徵的湧現現象,分析這些特徵在訓練檢查點(時間)、Transformer層次(空間)以及不同模型規模(尺度)下的行為。透過使用稀疏自編碼器進行機制性解釋,我們識別出特定語義概念在神經激活中何時何地出現。結果顯示,在多個領域中,特徵的湧現存在明確的時間與規模特定閾值。值得注意的是,空間分析揭示了意外的語義再激活現象,早期層次的特徵在後期層次中重新出現,這對Transformer模型中表徵動態的標準假設提出了挑戰。
導向方法已成為引導大型語言模型(LLMs)行為的有效且針對性工具,而無需修改其參數。然而,多模態大型語言模型(MLLMs)目前尚未享有相同的技術套件,部分原因在於其新近性和架構多樣性。受此差距啟發,我們探討是否可以利用僅基於文本的LLM骨幹,通過稀疏自編碼器(SAEs)、均值漂移和線性探測,來導向MLLMs。我們發現,基於文本的導向一致性地提升了跨多種MLLM架構和視覺任務的多模態準確性。特別是,均值漂移在CV-Bench上的空間關係準確性提升了高達+7.3%,計數準確性提升了高達+3.3%,超越了提示方法,並展現出對分佈外數據集的強大泛化能力。這些結果凸顯了文本導向向量作為一種強大且高效的機制,能夠以最小的額外數據收集和計算開銷來增強MLLMs的基礎能力。
離線目標條件強化學習(GCRL)提供了一種實用的學習範式,其中目標達成策略是從大量未標記(無獎勵)數據集中訓練而來,無需額外的環境交互。然而,即便採用了如HIQL等層次化策略結構的最新進展,離線GCRL在處理長時序任務時仍面臨挑戰。通過深入剖析這一難題的根源,我們得出以下洞見:首先,性能瓶頸主要源於高層策略無法生成合適的子目標。其次,在長時序情境下學習高層策略時,優勢信號的符號經常出現錯誤。因此,我們主張改進價值函數以產生清晰優勢信號,對於學習高層策略至關重要。本文中,我們提出了一種簡單而有效的解決方案:選項感知的時間抽象價值學習(OTA),該方法將時間抽象融入時間差分學習過程。通過使價值更新具備選項感知能力,所提出的學習方案縮短了有效時序長度,即便在長時序情境下也能獲得更好的優勢估計。實驗表明,利用OTA價值函數提取的高層策略在OGBench這一新近提出的離線GCRL基準測試中表現出色,包括迷宮導航和視覺機器人操作環境。