每日精選AI研究論文及翻譯
推理是智能的核心,它塑造了决策、得出结论以及跨领域泛化的能力。在人工智能领域,随着系统越来越多地在开放、不确定和多模态环境中运行,推理对于实现稳健和自适应行为变得至关重要。大型多模态推理模型(LMRMs)作为一种有前景的范式应运而生,它整合了文本、图像、音频和视频等多种模态,以支持复杂的推理能力,并旨在实现全面的感知、精确的理解和深度的推理。随着研究的进展,多模态推理已从模块化、感知驱动的流程迅速演变为统一的、以语言为中心的框架,这些框架提供了更连贯的跨模态理解。尽管指令微调和强化学习已提升了模型的推理能力,但在全模态泛化、推理深度和代理行为方面仍存在重大挑战。为了解决这些问题,我们围绕一个四阶段的发展路线图,对多模态推理研究进行了全面而结构化的综述,该路线图反映了该领域设计理念的转变和新兴能力。首先,我们回顾了基于任务特定模块的早期努力,其中推理隐含地嵌入在表示、对齐和融合的各个阶段。接着,我们探讨了将推理统一到多模态大语言模型(LLMs)中的最新方法,如多模态思维链(MCoT)和多模态强化学习等进展,使得推理链更加丰富和结构化。最后,基于来自挑战性基准和OpenAI O3及O4-mini实验案例的实证洞察,我们讨论了原生大型多模态推理模型(N-LMRMs)的概念方向,这些模型旨在支持复杂现实环境中可扩展、代理性和自适应的推理与规划。
我們提出了Flow-GRPO,這是首個將線上強化學習(RL)整合到流匹配模型中的方法。我們的方法採用了兩個關鍵策略:(1)ODE到SDE的轉換,將確定性的常微分方程(ODE)轉化為等效的隨機微分方程(SDE),該方程在所有時間步上匹配原始模型的邊際分佈,從而實現了RL探索的統計採樣;(2)去噪減縮策略,在保持原始推理時間步數的同時,減少訓練中的去噪步驟,顯著提高了採樣效率而不影響性能。實驗表明,Flow-GRPO在多種文本到圖像任務中均表現出色。對於複雜的構圖,經過RL調優的SD3.5能夠生成近乎完美的物件數量、空間關係和細粒度屬性,將GenEval的準確率從63%提升至95%。在視覺文本渲染方面,其準確率從59%提升至92%,顯著增強了文本生成能力。Flow-GRPO在人類偏好對齊方面也取得了顯著進展。值得注意的是,幾乎沒有出現獎勵欺騙現象,即獎勵的增加並未以圖像質量或多樣性為代價,兩者在我們的實驗中均保持穩定。
我們推出了LegoGPT,這是首個從文本提示生成物理穩定的樂高積木模型的方法。為實現這一目標,我們構建了一個大規模、物理穩定的樂高設計數據集,並配以相關描述,訓練了一個自迴歸大型語言模型,通過下一個令牌預測來預測應添加的下一個積木。為了提高生成設計的穩定性,我們在自迴歸推理過程中採用了高效的有效性檢查和物理感知回滾機制,利用物理定律和組裝約束來修剪不可行的令牌預測。實驗結果表明,LegoGPT能夠生成穩定、多樣且美觀的樂高設計,這些設計與輸入的文本提示緊密契合。此外,我們還開發了一種基於文本的樂高紋理生成方法,用於創建彩色和帶有紋理的設計。我們展示了這些設計不僅可由人工手動組裝,也能通過機械臂自動完成。同時,我們在項目網站https://avalovelace1.github.io/LegoGPT/上發布了包含超過47,000個樂高結構、涵蓋28,000多個獨特3D物體並附有詳細描述的新數據集StableText2Lego,以及我們的代碼和模型。
評估大型語言模型(LLM)對人類的理解程度,而非僅僅對文本的理解,仍是一個未解的挑戰。為彌合這一差距,我們引入了「感知代理作為評判者」(SAGE),這是一個自動化評估框架,用於衡量LLM的高階社會認知能力。SAGE實例化了一個感知代理,該代理在互動過程中模擬人類情感變化和內心想法,從而提供對測試模型在多輪對話中更為真實的評估。在每一輪對話中,代理會推理:(i) 其情感如何變化,(ii) 其感受如何,以及(iii) 應如何回應,從而生成數值化的情感軌跡和可解釋的內心想法。在100個支持性對話場景中的實驗表明,最終的感知情感分數與Barrett-Lennard關係量表(BLRI)評分和話語層面的同理心指標高度相關,驗證了其心理真實性。我們還建立了一個公開的感知排行榜,涵蓋了18個商業和開源模型,揭示了前沿系統(如GPT-4o-Latest、Gemini2.5-Pro)與早期基線模型之間顯著的差距(高達4倍),這些差距在傳統排行榜(如Arena)中並未體現。因此,SAGE提供了一個有原則、可擴展且可解釋的工具,用於追蹤真正具備同理心和社交能力的語言代理的進展。
大型推理模型(LRMs)在處理複雜任務方面取得了顯著進展,這主要得益於其生成的擴展思維鏈(CoT)。然而,這些模型不受控制的輸出長度在實際部署中帶來了重大挑戰,尤其是在推理時對令牌數量、延遲或計算資源有嚴格限制的場景下。我們提出了彈性推理(Elastic Reasoning),這是一種可擴展思維鏈的新框架,它明確將推理過程分為兩個階段——思考階段和解決方案階段——並為每個階段獨立分配預算。在測試時,彈性推理優先保證解決方案片段的完整性,從而顯著提高了在嚴格資源限制下的可靠性。為了訓練出能夠適應思考過程被截斷的模型,我們引入了一種輕量級的預算約束滾動策略,該策略整合到GRPO中,教導模型在思考過程被中斷時進行自適應推理,並能有效泛化到未見過的預算限制,無需額外訓練。在數學(AIME、MATH500)和編程(LiveCodeBench、Codeforces)基準測試上的實驗結果表明,彈性推理在嚴格預算限制下表現穩健,同時相比基準方法顯著降低了訓練成本。值得注意的是,即使在無約束的設置下,我們的方法也能產生更簡潔高效的推理。彈性推理為大規模可控推理這一迫切挑戰提供了一個原則性且實用的解決方案。
三維場景生成旨在為沉浸式媒體、機器人技術、自動駕駛以及具身智能等應用合成具有空間結構、語義意義且逼真的環境。早期基於程序規則的方法雖具備可擴展性,但多樣性有限。近年來,深度生成模型(如GANs、擴散模型)與三維表示(如NeRF、3D高斯)的進展,使得學習真實世界場景分佈成為可能,從而提升了保真度、多樣性及視角一致性。擴散模型等最新技術通過將生成問題重新定義為圖像或視頻合成,架起了三維場景合成與逼真度之間的橋樑。本綜述系統性地概述了當前最先進的方法,將其歸納為四大範式:程序生成、基於神經網絡的三維生成、基於圖像的生成以及基於視頻的生成。我們分析了它們的技術基礎、權衡取捨及代表性成果,並回顧了常用的數據集、評估協議及下游應用。最後,我們探討了生成能力、三維表示、數據與註釋以及評估等方面的關鍵挑戰,並展望了包括更高保真度、物理感知與交互生成以及統一的感知-生成模型在內的潛在方向。本綜述梳理了三維場景生成的最新進展,並強調了生成式人工智能、三維視覺與具身智能交叉領域的潛在方向。為追蹤持續發展,我們維護了一個實時更新的項目頁面:https://github.com/hzxie/Awesome-3D-Scene-Generation。
對比式語言-圖像預訓練(CLIP)在多模態任務中表現卓越,例如圖像-文本檢索和零樣本分類,但由於其專注於粗粒度的簡短描述,在細粒度理解方面存在困難。為解決這一問題,我們提出了細粒度CLIP(FG-CLIP),通過三項關鍵創新來增強細粒度理解能力。首先,我們利用大型多模態模型生成了16億個長描述-圖像對,以捕捉全局層次的語義細節。其次,構建了一個高質量數據集,包含1200萬張圖像和4000萬個與詳細描述對齊的區域特定邊界框,確保了精確且語境豐富的表徵。第三,引入了1000萬個困難的細粒度負樣本,以提升模型區分細微語義差異的能力。針對這些數據,我們精心設計了相應的訓練方法。大量實驗表明,FG-CLIP在多種下游任務中均超越了原始CLIP及其他最先進的方法,包括細粒度理解、開放詞彙目標檢測、圖像-文本檢索以及通用多模態基準測試。這些結果凸顯了FG-CLIP在捕捉圖像細部細節及提升整體模型性能方面的有效性。相關數據、代碼和模型可在https://github.com/360CVGroup/FG-CLIP獲取。
近期專有模型(例如o3)已開始展現出強大的多模態推理能力。然而,現有的大多數開源研究仍集中於訓練僅限於文本的推理模型,其評估範圍主要限於數學和通用領域任務。因此,如何有效將推理能力擴展至文本輸入和通用領域之外,仍是一個未解之謎。本文探討了一個基礎研究問題:推理能力是否能在不同模態和領域間通用?我們的研究結果支持了肯定的答案:基於通用領域文本的後續訓練能夠實現這種強大的通用推理能力。基於這一發現,我們提出了X-Reasoner,這是一個僅在通用領域文本上進行後續訓練的視覺語言模型,旨在實現通用推理能力,採用兩階段方法:首先進行監督式微調,使用蒸餾的長鏈思維,隨後進行帶有可驗證獎勵的強化學習。實驗表明,X-Reasoner成功將推理能力轉移至多模態和領域外設置,在各種通用和醫學基準測試中,超越了現有使用領域內和多模態數據訓練的最先進模型(圖1)。此外,我們發現,通過在特定領域的純文本數據上進行持續訓練,可以進一步提升X-Reasoner在專業領域的表現。基於此,我們推出了X-Reasoner-Med,這是一個專注於醫學的變體,在多個純文本和多模態醫學基準測試中達到了新的最高水平。
我們提出了StreamBridge,這是一個簡單而有效的框架,能夠無縫地將離線的Video-LLM轉化為支持串流的模型。它解決了將現有模型適應於線上場景時的兩個基本挑戰:(1) 多輪實時理解能力的限制,以及 (2) 缺乏主動回應機制。具體而言,StreamBridge整合了:(1) 一個結合了輪次衰減壓縮策略的記憶緩衝區,支持長上下文的多輪互動,以及 (2) 一個解耦的輕量級激活模型,可以輕鬆整合到現有的Video-LLM中,實現持續的主動回應。為了進一步支持StreamBridge,我們構建了Stream-IT,這是一個專為串流影片理解而設計的大規模數據集,具有交錯的影片-文本序列和多樣的指令格式。大量實驗表明,StreamBridge顯著提升了離線Video-LLM在各種任務中的串流理解能力,甚至超越了GPT-4o和Gemini 1.5 Pro等專有模型。同時,它在標準的影片理解基準測試中也達到了競爭力或更優的表現。
我們提出了「語言引導的物體放置於真實3D場景」這一新穎任務。我們的模型接收一個3D場景的點雲數據、一個3D資產,以及一個大致描述3D資產應放置位置的文本提示。此任務的核心在於找到一個既符合提示又有效的3D資產放置位置。與其他在3D場景中基於語言的定位任務(如接地)相比,該任務面臨特定挑戰:其具有多解性,因為存在多個有效解決方案,並且需要對3D幾何關係和自由空間進行推理。我們通過提出新的基準和評估協議來啟動這一任務。此外,我們還引入了一個新的數據集,用於訓練在此任務上的3D大語言模型,以及作為非平凡基線的第一種方法。我們相信,這一具有挑戰性的任務及我們的新基準,有望成為評估和比較通用型3D大語言模型的一系列基準測試中的一部分。
現行用於微調大型語言模型(LLM)推理器的強化學習(RL)方法,如GRPO或Leave-one-out PPO,往往捨棄已學習的價值函數,轉而依賴經驗估計的回報。這種做法阻礙了依賴價值函數進行驗證的測試階段計算擴展。在本研究中,我們提出了RL^V方法,該方法通過聯合訓練LLM作為推理器和生成式驗證器,利用RL生成的數據,為任何「無價值」的RL方法增添了驗證能力,且無需顯著增加額外開銷。實驗表明,RL^V在並行採樣下將MATH準確率提升了超過20%,並使測試階段計算效率相較於基礎RL方法提高了8至32倍。此外,RL^V在易至難任務及跨領域任務上展現出強大的泛化能力。更進一步,RL^V在並行與序列測試階段計算聯合擴展時,配合長推理R1模型,實現了1.2至1.6倍的性能提升。
指令微調的數據選擇對於提升大型語言模型(LLMs)的性能和降低訓練成本至關重要。然而,現有的自動化選擇方法要么依賴於計算成本高昂的基於梯度的度量,要么依賴於人工設計的啟發式方法,這些方法可能無法充分利用數據的內在屬性。本文提出了一種新穎的無梯度方法——基於上下文學習的貢獻度量(ICon),該方法利用上下文學習(ICL)的隱式微調特性來衡量樣本貢獻,無需梯度計算或人工指標工程。ICon提供了一種計算效率高的替代方案,相較於基於梯度的方法,並減少了基於啟發式方法中固有的人為歸納偏差。ICon由三個組件構成,通過評估在ICL隱式學習下的性能變化來識別高貢獻數據。在三個LLMs上進行的廣泛實驗,涵蓋12個基準測試和5個配對評估集,證明了ICon的有效性。值得注意的是,在LLaMA3.1-8B上,使用15% ICon選擇數據訓練的模型比使用完整數據集訓練的模型性能高出5.42個百分點,並且比廣泛使用的選擇方法的最佳性能高出2.06個百分點。我們進一步分析了ICon選擇的高貢獻樣本,這些樣本展示了多樣化的任務和適宜的難度水平,而不僅僅是最難的樣本。
大型語言模型的推理能力主要針對英語進行研究,即便這些模型在預訓練階段是多語言的。在本研究中,我們探討了基於長鏈思維(CoTs)的英語推理微調能在多大程度上跨語言泛化。首先,我們發現,對於以英語為中心的推理語言模型(RLMs),增加推理計算資源能夠提升多種語言(包括低資源語言)的數學推理能力,其效果甚至超過了規模是其兩倍的模型。其次,我們揭示出,儘管以英語為中心的RLM的CoTs自然以英語為主,但它們在處理引用的非英語輸入時,始終遵循“引用-思考”的模式進行推理。第三,我們發現了一種有效策略來控制長鏈CoT推理的語言,並觀察到模型在高資源語言中推理更為高效且效果更好。最後,我們注意到模型在跨領域推理泛化上表現不佳,特別是從STEM領域到文化常識知識的轉移,即便是在英語中也是如此。總體而言,我們展示了英語推理測試時擴展的跨語言泛化潛力,研究了其機制,並概述了其局限性。我們得出結論,實踐者應讓以英語為中心的RLM在高資源語言中進行推理,同時還需進一步研究以提升低資源語言和跨領域上下文中的推理能力。
大型語言模型(LLM)的遺忘技術在實際應用中至關重要,尤其是在需要高效移除某些用戶的私人、受版權保護或有害數據影響的情況下。然而,現有的以效用為中心的遺忘評估指標(基於模型效用)在現實場景中可能無法準確評估遺忘的程度,例如當(a)遺忘集和保留集的內容在語義上相似,(b)從頭開始在保留集上重新訓練模型不切實際,以及/或(c)模型所有者可以在不直接對LLM進行遺忘操作的情況下提升遺忘指標。本文提出了首個以數據為中心的LLM遺忘評估指標——WaterDrum,該指標利用魯棒的文本水印技術來克服這些限制。我們還引入了新的LLM遺忘基準數據集,這些數據集包含不同相似程度的數據點,可用於通過WaterDrum嚴格評估遺忘算法。我們的代碼可在https://github.com/lululu008/WaterDrum獲取,新的基準數據集已發佈於https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax。
思維鏈(Chain-of-Thoughts, CoT)要求大型語言模型(LLMs)在得出最終答案之前生成中間步驟,並已被證明能有效幫助LLMs解決複雜的推理任務。然而,CoT的內在機制在很大程度上仍不明確。本文中,我們通過實證研究探討了CoT標記在LLMs中於兩個組合任務——多位數乘法和動態規劃——上的作用。雖然CoT對於解決這些問題至關重要,但我們發現僅保留存儲中間結果的標記即可達到相當的性能。此外,我們觀察到將中間結果以另一種潛在形式存儲並不會影響模型性能。我們還隨機干預了CoT中的某些值,並注意到後續的CoT標記和最終答案會相應地發生變化。這些發現表明,CoT標記可能像計算機程序中的變量一樣運作,但也存在諸如無意中的捷徑和標記間計算複雜度限制等潛在缺點。代碼和數據可在https://github.com/solitaryzero/CoTs_are_Variables獲取。
視覺-語言-動作(Vision-Language-Action, VLA)模型標誌著人工智慧領域的一次變革性進步,旨在將感知、自然語言理解與具身行動統一於單一的計算框架中。本基礎性綜述全面整合了近期VLA模型的進展,並系統性地以五大主題支柱組織了這一快速發展領域的現狀。我們首先確立了VLA系統的概念基礎,追溯其從跨模態學習架構到緊密整合視覺-語言模型(VLMs)、動作規劃器與分層控制器的通用型代理的演進歷程。我們的研究方法採用嚴謹的文獻綜述框架,涵蓋了過去三年內發表的80多個VLA模型。關鍵進展領域包括架構創新、參數高效訓練策略以及即時推理加速。我們探討了多樣化的應用領域,如人形機器人、自動駕駛車輛、醫療與工業機器人、精準農業以及增強現實導航。本綜述進一步探討了即時控制、多模態動作表示、系統可擴展性、對未見任務的泛化能力以及倫理部署風險等主要挑戰。基於最新技術,我們提出了針對性的解決方案,包括代理型AI適應、跨具身泛化以及統一的神經符號規劃。在展望性討論中,我們勾勒了一條未來發展路線圖,其中VLA模型、VLMs與代理型AI將匯聚成具有社會對齊性、適應性與通用目的的具身代理。本工作為推動智能現實世界機器人與人工通用智慧的發展提供了基礎性參考。>視覺-語言-動作,代理型AI,AI代理,視覺-語言模型
在機器人技術的同步定位與地圖構建(SLAM)及視覺定位等應用中,穩健且高效的局部特徵匹配扮演著至關重要的角色。儘管已取得顯著進展,在光照劇烈變化、低紋理區域或重複圖案等場景下,提取出既穩健又具區分性的視覺特徵仍是一大挑戰。本文提出了一種名為LiftFeat的新型輕量級網絡,該網絡通過聚合三維幾何特徵來提升原始描述符的魯棒性。具體而言,我們首先採用預訓練的單目深度估計模型生成偽表面法線標籤,以此監督基於預測表面法線的三維幾何特徵提取過程。隨後,我們設計了一個三維幾何感知的特徵提升模塊,將表面法線特徵與原始二維描述符特徵進行融合。這種三維幾何特徵的整合,增強了二維特徵描述在極端條件下的區分能力。在相對姿態估計、單應性估計及視覺定位任務上的大量實驗結果表明,我們的LiftFeat在性能上超越了一些輕量級的現有最先進方法。代碼將發佈於:https://github.com/lyp-deeplearning/LiftFeat。
將語言模型與人類偏好對齊依賴於成對偏好數據集。雖然一些研究表明,在偏好學習中,在線策略數據始終優於離線策略數據,但其他研究指出,在線策略數據的優勢可能依賴於具體任務,這凸顯了系統性探索兩者相互作用的必要性。 在本研究中,我們展示了在線策略和離線策略數據在偏好優化中具有互補優勢:在線策略數據在數學和編碼等推理任務中表現尤為出色,而離線策略數據則在創意寫作和個性化推薦等開放性任務中表現更佳。基於這些發現,我們提出了SIMPLEMIX方法,通過簡單混合這兩種數據源來結合在線策略和離線策略偏好學習的互補優勢。我們在多樣化任務和基準測試中的實證結果表明,SIMPLEMIX顯著提升了語言模型的對齊效果。具體而言,SIMPLEMIX在Alpaca Eval 2.0上平均比在線策略DPO和離線策略DPO提高了6.03%。此外,它還比之前更為複雜的在線和離線策略數據結合方法(如HyPO和DPO-Mix-P)平均提升了3.05%。
隨著大型語言模型(LLMs)逐漸演變為工具使用代理,實時瀏覽網頁的能力已成為衡量其推理和檢索能力的關鍵指標。現有的基準測試如BrowseComp主要集中於英語,並忽視了其他主要信息生態系統(尤其是中文)在語言、基礎設施和審查相關方面的複雜性。為填補這一空白,我們引入了BrowseComp-ZH,這是一個專為全面評估LLM代理在中文網絡上的表現而設計的高難度基準測試。BrowseComp-ZH包含289個跨11個不同領域的多跳問題。每個問題都是從一個簡短、客觀且易於驗證的答案(例如日期、數字或專有名詞)逆向工程而來。我們應用了一個兩階段的質量控制協議,以確保問題的高難度和答案的唯一性。我們在提出的BrowseComp-ZH上對超過20個最先進的語言模型和代理搜索系統進行了基準測試。儘管這些模型具有強大的對話和檢索能力,但大多數模型表現嚴重不佳:大量模型的準確率低於10%,只有少數超過20%。即使是表現最好的系統,OpenAI的DeepResearch,也僅達到42.9%。這些結果表明BrowseComp-ZH的難度相當大,成功不僅需要有效的檢索策略,還需要複雜的推理和信息協調能力——這些能力當前模型仍然難以掌握。我們的數據集、構建指南和基準測試結果已公開發布於https://github.com/PALIN2018/BrowseComp-ZH。