每日精選AI研究論文及翻譯
可驗證獎勵的強化學習(RLVR)近期在提升大型語言模型(LLMs)的推理能力方面取得了顯著成功,特別是在數學和編程任務中。普遍認為,RLVR使LLMs能夠持續自我改進,從而獲得超越相應基礎模型能力的新推理能力。然而,在本研究中,我們通過測量大k值下的pass@k指標,重新審視了這一假設,以探索不同模型家族和基準測試中模型的推理能力邊界。令人驚訝的是,強化學習實際上並未引發根本性的新推理模式。雖然在較小的k值(例如k=1)下,經過RL訓練的模型表現優於其基礎模型,但在大k值下,基礎模型可以達到與其RL對應模型相當甚至更高的pass@k分數。RL訓練模型生成的推理路徑已經包含在基礎模型的採樣分佈中,這表明RL訓練模型所展現的大多數推理能力已經被基礎模型所掌握。進一步分析顯示,RL訓練通過偏向於更可能獲得獎勵的路徑來提升模型性能,從而更有效地採樣正確答案。但這也導致了與基礎模型相比更窄的推理能力邊界。在視覺推理任務中,使用RLVR訓練也觀察到了類似的結果。此外,我們發現蒸餾可以真正為模型引入新知識,這與RLVR不同。這些發現凸顯了RLVR在提升LLM推理能力方面的關鍵限制,促使我們從根本上重新思考RL訓練在推理LLMs中的影響以及對更好範式的需求。項目頁面:https://limit-of-RLVR.github.io
檢索增強生成(RAG)賦能大型語言模型,使其能夠訪問外部及私有語料庫,從而在特定領域內提供事實一致的回應。通過利用語料庫的固有結構,基於圖的RAG方法進一步豐富了這一過程,它們構建知識圖索引並發揮圖的結構特性。然而,當前的基於圖的RAG方法鮮少優先考慮圖結構的設計。設計不當的圖不僅阻礙了多樣化圖算法的無縫集成,還導致工作流程不一致和性能下降。為了進一步釋放圖在RAG中的潛力,我們提出了NodeRAG,這是一個以圖為中心的框架,引入了異構圖結構,使得基於圖的方法能夠無縫且全面地融入RAG工作流程。通過緊密對齊大型語言模型的能力,該框架確保了完全連貫且高效的端到端流程。通過大量實驗,我們證明NodeRAG在索引時間、查詢時間和存儲效率上均優於先前的方法,包括GraphRAG和LightRAG,同時在多跳基準測試和開放式頭對頭評估中,以最少的檢索標記展現出更優的問答性能。我們的GitHub倉庫可於https://github.com/Terry-Xu-666/NodeRAG查看。
數據質量與多樣性是構建有效指令微調數據集的關鍵。隨著開源指令微調數據集的日益增多,從海量數據中自動選取高質量且多樣化的子集顯得尤為重要。現有方法通常優先考慮實例質量,並使用啟發式規則來保持多樣性。然而,這種缺乏對整個數據集全面視角的做法往往導致次優結果。此外,啟發式規則通常聚焦於嵌入空間中的距離或聚類,這難以準確捕捉語義空間中複雜指令的意圖。為彌補這一差距,我們提出了一種統一的方法來量化數據集的信息量。該方法通過構建標籤圖來建模語義空間,並基於圖中信息的分佈來量化多樣性。基於此度量,我們進一步引入了一種高效的採樣方法,該方法迭代地選取數據樣本,以最大化語義空間中的信息增益(MIG)。在多種數據集和基礎模型上的實驗表明,MIG始終優於最先進的方法。值得注意的是,使用MIG採樣的5% Tulu3數據進行微調的模型,其性能與在完整數據集上訓練的官方SFT模型相當,在AlpacaEval和Wildbench上分別提升了+5.73%和+6.89%。
先前的研究表明,大型語言模型存在顯著的「英語偏見」,即當任務以英語呈現時,它們通常表現更佳。有趣的是,我們觀察到在某些推理任務中使用其他特定語言,其表現甚至優於英語。然而,這一現象仍未被充分探索。本文中,我們探討了在多語言環境下進行推理任務的潛在上限,指出多語言推理相較於僅使用英語的推理,不僅能顯著提升(接近10個Acc@k點)性能上限,而且具有更強的穩健性(對翻譯質量和語言選擇的變化具有容忍度)。除了分析這一上限背後的原因及實現過程中的挑戰外,我們還發現,常見的答案選擇方法因其局限性和偏見,無法達到這一上限。這些洞見或將為未來研究鋪平道路,旨在充分挖掘大型語言模型中多語言推理的潛力。
我們探索了從地面和空中視角混合拍攝的圖像的幾何重建任務。當前最先進的基於學習的方法無法處理空中與地面圖像對之間極端的視角變化。我們的假設是,缺乏高質量、共同配準的空中-地面數據集進行訓練是這一失敗的關鍵原因。這類數據難以組裝,正是因為其難以以可擴展的方式重建。為克服這一挑戰,我們提出了一個可擴展的框架,結合了從3D城市級網格(如Google Earth)生成的偽合成渲染與真實的地面級眾包圖像(如MegaDepth)。偽合成數據模擬了廣泛的空中視角,而真實的眾包圖像則幫助提高了地面級圖像的視覺逼真度,在網格渲染缺乏足夠細節的情況下,有效彌合了真實圖像與偽合成渲染之間的領域差距。利用這一混合數據集,我們對多種最先進的算法進行了微調,並在真實世界的零樣本空中-地面任務中取得了顯著改進。例如,我們觀察到基線DUSt3R在相機旋轉誤差5度以內定位的空中-地面對少於5%,而使用我們的數據進行微調後,準確率提升至近56%,解決了處理大視角變化時的一個主要失敗點。除了相機估計和場景重建外,我們的數據集還提升了在具有挑戰性的空中-地面場景中進行新視角合成等下遊任務的性能,展示了我們方法在實際應用中的實用價值。
設計高效且強大的架構骨幹一直是提升基礎模型能力的核心研究方向。受人類認知現象中的注意力偏差(即自然傾向於優先處理某些事件或刺激)的啟發,我們重新構思了神經網路架構,包括Transformer、Titans以及現代線性遞歸神經網路,將其視為關聯記憶模組,這些模組通過內部目標(稱為注意力偏差)學習鍵與值的映射。令人驚訝的是,我們觀察到大多數現有的序列模型要麼依賴於(1)點積相似度,要麼依賴於(2)L2回歸目標作為其注意力偏差。超越這些目標,我們提出了一組替代的注意力偏差配置及其有效近似方法,以穩定其訓練過程。隨後,我們將現代深度學習架構中的遺忘機制重新解釋為一種保留正則化形式,為序列模型提供了一組新穎的遺忘門。基於這些洞見,我們提出了Miras,這是一個基於四種選擇來設計深度學習架構的通用框架:(i)關聯記憶架構,(ii)注意力偏差目標,(iii)保留門,以及(iv)記憶學習算法。我們提出了三種新穎的序列模型——Moneta、Yaad和Memora,它們超越了現有線性RNN的能力,同時保持了快速可並行化的訓練過程。我們的實驗表明,Miras中的不同設計選擇會產生具有不同優勢的模型。例如,某些Miras實例在特定任務(如語言建模、常識推理和記憶密集型任務)中表現卓越,甚至超越了Transformer和其他現代線性遞歸模型。
第一代大型語言模型——可稱之為生成式人工智慧的「第一幕」(2020-2023年)——通過大規模的參數與數據擴展取得了顯著成就,但在知識更新延遲、淺層推理及受限的認知過程方面仍存在根本性限制。在此期間,提示工程(prompt engineering)成為我們與AI互動的主要介面,實現了基於自然語言的對話層級交流。如今,我們正見證「第二幕」(2024年至今)的興起,模型正從(潛在空間中的)知識檢索系統轉變為通過測試時擴展技術(test-time scaling)構建思維的引擎。這一新範式通過語言化的思維與AI建立了心智層面的連接。本文中,我們闡明了認知工程(cognition engineering)的概念基礎,並解釋了為何此刻是其發展的關鍵時期。我們通過全面的教程與優化的實現方案,系統性地拆解這些先進方法,使認知工程得以普及,讓每位實踐者都能參與到AI的第二幕中。我們在GitHub倉庫中定期更新關於測試時擴展的論文集合:https://github.com/GAIR-NLP/cognition-engineering。
理解大型语言模型(LLMs)的知识边界对于防止幻觉现象至关重要,然而,当前关于LLMs知识边界的研究主要集中于英语。在本研究中,我们首次探讨了LLMs如何通过处理多种语言中已知与未知问题时的内部表征来识别跨语言的知识边界。我们的实证研究揭示了三个关键发现:1)LLMs对知识边界的感知编码于模型的中层至中上层,这一现象在不同语言间普遍存在。2)知识边界感知中的语言差异呈现线性结构,这启发我们提出了一种无需训练的对齐方法,有效实现了跨语言知识边界感知能力的迁移,从而有助于降低低资源语言中的幻觉风险。3)在双语问题对翻译上进行微调,进一步增强了LLMs跨语言知识边界的识别能力。鉴于缺乏跨语言知识边界分析的标准测试集,我们构建了一个多语言评估套件,包含三种代表性的知识边界数据类型。我们的代码与数据集已公开于https://github.com/DAMO-NLP-SG/LLM-Multilingual-Knowledge-Boundaries。
在涉及價值衝突的高風險困境中做出抉擇,即便對人類而言也是一大挑戰,更遑論人工智慧(AI)。然而,先前評估大型語言模型(LLMs)在此類情境下推理能力的研究,僅限於日常場景。為彌補這一缺口,本研究首先引入了CLASH(基於角色視角的高風險情境下LLM評估),這是一個精心策劃的數據集,包含345個高影響力困境及3,795個反映多元價值的個體視角。特別地,我們設計CLASH以支持研究先前工作中缺失的基於價值的決策過程關鍵方面,包括理解決策矛盾與心理不適,以及捕捉角色視角中價值觀的時序變化。通過對10個開源與閉源前沿模型的基準測試,我們揭示了幾個關鍵發現:(1)即便是最強大的模型,如GPT-4o和Claude-Sonnet,在識別應存在決策矛盾的情境時,準確率不足50%,而在明確情境下表現則顯著更佳。(2)雖然LLMs能合理預測人類標記的心理不適,但對涉及價值轉變的視角理解不足,表明LLMs需提升對複雜價值的推理能力。(3)我們的實驗還顯示,LLMs的價值偏好與其對特定價值的可引導性之間存在顯著相關性。(4)最後,相較於第一人稱設定,LLMs在從第三方視角進行價值推理時展現出更高的可引導性,儘管某些價值配對能從第一人稱框架中獲得獨特優勢。
場景級3D生成代表了多媒體與計算機圖形學中的一個關鍵前沿,然而現有方法要么受限於物體類別,要么缺乏適用於互動應用的編輯靈活性。本文提出HiScene,一種新穎的分層框架,它彌合了2D圖像生成與3D物體生成之間的鴻溝,並能生成具有組合特徵和美學場景內容的高保真場景。我們的核心洞見在於將場景視為等距視角下的分層“物體”,其中房間作為一個複雜物體,可進一步分解為可操控的單元。這種分層方法使我們能夠生成與2D表示對齊的3D內容,同時保持組合結構。為了確保每個分解實例的完整性和空間對齊,我們開發了一種基於視頻擴散的模態補全技術,有效處理物體間的遮擋與陰影,並引入形狀先驗注入以確保場景內的空間一致性。實驗結果表明,我們的方法能產生更自然的物體排列和完整的物體實例,適合互動應用,同時保持物理合理性並與用戶輸入對齊。
全局上下文信息與局部細節特徵對於去霧任務至關重要。深度學習模型在處理小型、低解析度圖像時表現良好,但在面對大型、高解析度圖像時,由於GPU記憶體限制,往往會遇到困難。作為折衷方案,這些模型通常會採用圖像切片或下採樣的方法。前者削弱了全局信息,而後者則丟失了高頻細節。為解決這些挑戰,我們提出了DehazeXL,一種有效平衡全局上下文與局部特徵提取的去霧方法,使得在主流GPU硬體上實現大型圖像的端到端建模成為可能。此外,為了評估全局上下文利用效率對去霧性能的影響,我們設計了一種針對去霧任務特點的視覺歸因方法。最後,考慮到缺乏針對大型圖像去霧的基準數據集,我們開發了一個超高解析度去霧數據集(8KDehaze)以支持模型的訓練與測試。該數據集包含10000對清晰與霧霾的遙感圖像,每張圖像尺寸為8192×8192像素。大量實驗表明,DehazeXL僅需21GB記憶體即可推斷出高達10240×10240像素的圖像,在所有評估方法中取得了最先進的成果。源代碼與實驗數據集可於https://github.com/CastleChen339/DehazeXL獲取。
近期,大型推理模型(LRMs)的進展展示了擴展測試時計算以增強多任務推理能力的有效性。然而,LRMs通常面臨「過度思考」問題,即模型生成大量冗餘推理步驟,卻僅帶來有限的性能提升。現有工作依賴於微調來緩解過度思考,這需要額外數據、非傳統的訓練設置、存在安全對齊風險以及泛化能力差。 通過實證分析,我們揭示了LRM行為的一個重要特徵:在思考標記(<think>和</think>)之間插入由較小模型生成的外部推理鏈(CoTs),可以有效操控模型生成更少的思考步驟。基於這些洞察,我們提出了一個簡單而高效的流程——ThoughtMani,使LRMs能夠繞過不必要的中間步驟,顯著降低計算成本。我們進行了廣泛的實驗來驗證ThoughtMani的效用和效率。例如,在LiveBench/Code數據集上應用於QwQ-32B時,ThoughtMani保持了原始性能,並將輸出標記數量減少約30%,且CoT生成器的開銷極小。此外,我們發現ThoughtMani平均提升了10%的安全對齊性。由於模型供應商通常同時提供不同規模的模型,ThoughtMani為構建更高效、更易於實際應用的大型推理模型提供了一種有效途徑。
AI系統在經濟中的廣泛應用,取決於其創造的經濟價值能否超越其推理成本。評估這一權衡需要同時考量性能和成本的指標。我們提出了一個基於生產理論的框架,通過結合準確性和推理成本來評估語言模型。我們引入了「通過成本」這一概念,即生成正確解決方案的預期貨幣成本。隨後,我們定義了「前沿通過成本」為在現有模型或「人類專家」中可實現的最低通過成本,後者基於聘請專家的近似成本。我們的分析揭示了獨特的經濟洞察。首先,輕量級模型在基礎定量任務中最具成本效益,大型模型在知識密集型任務中表現最佳,而推理模型則擅長處理複雜的定量問題,儘管其每令牌成本更高。其次,追蹤過去一年中這一前沿通過成本的變化顯示出顯著進步,特別是在複雜定量任務中,成本大約每幾個月減半。第三,為了追溯推動這一進步的關鍵創新,我們考察了反事實前沿:即假設不存在特定模型類別時的成本效率估計。我們發現,輕量級、大型和推理模型的創新分別對推動基礎定量、知識密集型和複雜定量任務的前沿至關重要。最後,我們評估了多數投票和自我精煉等常見推理時技術帶來的成本降低,發現它們的邊際準確性提升很少能證明其成本的合理性。我們的研究結果強調,互補的模型級創新是成本效率的主要驅動力,而我們的經濟框架為衡量這一進步和指導部署提供了原則性的工具。
尽管大型视频语言模型(LVLMs)近期取得了进展,它们仍难以实现细粒度的时间理解,容易产生幻觉,甚至在简单的视频问答任务中也会犯下基础错误,这些都对其在实际应用中的安全可靠部署构成了重大挑战。为解决这些局限,我们提出了一种自对齐框架,使LVLMs能够从自身错误中学习。该框架首先构建了一个包含偏好与非偏好响应对的训练集,其中非偏好响应通过融入常见错误模式生成,这些错误往往源于时空理解不足、共现概念间的虚假关联,以及过度依赖语言线索而忽视视觉模态等。为促进LVLMs与构建的偏好及非偏好响应对之间的自对齐,我们引入了精细化正则化偏好优化(RRPO),这是一种新颖的偏好优化方法,它利用子序列级精细化奖励和词元级别的KL正则化,以克服直接偏好优化(DPO)的不足。我们证明,与DPO相比,RRPO实现了更精确的对齐和更稳定的训练。通过实验与分析,我们验证了该方法在多种视频任务中的有效性,包括视频幻觉、短视频与长视频理解,以及细粒度时间推理。
在語言模型(LMs)中,不確定性量化(UQ)對於提升其安全性和可靠性至關重要。評估通常使用AUROC等性能指標來衡量UQ方法(例如,負序列概率)與任務正確性函數(例如,ROUGE-L)的相關性。本文中,我們指出常用的正確性函數會通過誇大某些UQ方法的性能來偏置UQ評估。我們評估了7種正確性函數——從基於詞彙和嵌入的指標到LLM作為評判者的方法——跨越4個數據集×4個模型×6種UQ方法。我們的分析揭示,這些正確性函數中的錯誤長度偏差與UQ方法中的長度偏差相互作用,從而扭曲了UQ評估。我們發現,LLM作為評判者的方法是長度偏差最小的選擇之一,因此可能是緩解這些偏差的潛在解決方案。
在低劑量CT中,有效的去噪對於增強細微結構和低對比度病變至關重要,同時防止診斷錯誤。監督方法受限於配對數據集的稀缺,而自監督方法通常需要多張噪聲圖像並依賴於如U-Net等深度網絡,對去噪機制的解釋性較弱。為應對這些挑戰,我們提出了一種可解釋的自監督單圖像去噪框架——Filter2Noise(F2N)。我們的方法引入了一種注意力引導的雙邊濾波器,該濾波器通過一個輕量級模塊適應每個噪聲輸入,預測空間變化的濾波參數,這些參數可在訓練後可視化並調整,實現用戶對特定感興趣區域的去噪控制。為了實現單圖像訓練,我們提出了一種新穎的下採樣重排策略,並配合新的自監督損失函數,將Noise2Noise的概念擴展到單圖像,並解決空間相關噪聲問題。在Mayo Clinic 2016低劑量CT數據集上,F2N在PSNR指標上超越了領先的自監督單圖像方法(ZS-N2N)4.59 dB,同時提升了透明度、用戶控制能力和參數效率。這些特性為需要精確且可解釋去噪的醫療應用提供了關鍵優勢。我們的代碼展示於https://github.com/sypsyp97/Filter2Noise.git。