每日精選AI研究論文及翻譯
近期發布的DeepSeek-R1展示了強化學習(RL)在提升大型語言模型(LLMs)通用推理能力方面的巨大潛力。儘管DeepSeek-R1及其後續研究主要聚焦於將RL應用於競技編程和數學問題,本文則首次提出了SWE-RL,這是一種將基於RL的LLM推理擴展至現實世界軟件工程的方法。通過利用輕量級的基於規則的獎勵機制(例如,真實解決方案與LLM生成解決方案之間的相似度評分),SWE-RL使LLMs能夠從大量的開源軟件演化數據中自主恢復開發者的推理過程和解決方案——這些數據記錄了軟件的整個生命週期,包括代碼快照、代碼變更以及如問題和拉取請求等事件。在Llama 3基礎上訓練後,我們得到了一個名為Llama3-SWE-RL-70B的推理模型,其在SWE-bench Verified上達到了41.0%的解決率——這是一組經人工驗證的真實GitHub問題集。據我們所知,這是迄今為止中型(<100B)LLMs報告的最佳性能,甚至可與GPT-4o等領先的專有LLMs相媲美。令人驚訝的是,儘管僅在軟件演化數據上進行RL訓練,Llama3-SWE-RL還展現出了泛化的推理能力。例如,它在五個跨領域任務上表現出提升,包括函數編碼、庫使用、代碼推理、數學以及通用語言理解,而相比之下,基於監督微調的基線模型平均上甚至導致了性能下降。總體而言,SWE-RL為通過在大量軟件工程數據上進行強化學習來提升LLMs的推理能力開闢了一條新途徑。
近期在開源多模態大型語言模型(MLLMs)的進展中,主要集中於提升基礎能力,而在人類偏好對齊方面存在顯著空白。本文介紹了OmniAlign-V,這是一個包含20萬個高質量訓練樣本的綜合數據集,涵蓋多樣化的圖像、複雜的問題以及多種回應格式,旨在提升MLLMs與人類偏好的對齊度。我們還提出了MM-AlignBench,這是一個專門設計的人類註解基準,用於評估MLLMs與人類價值觀的對齊情況。實驗結果顯示,使用監督微調(SFT)或直接偏好優化(DPO)方法對MLLMs進行微調,不僅顯著提升了與人類偏好的對齊度,同時在標準視覺問答(VQA)基準上保持或提升了性能,確保了其基礎能力的保留。我們的數據集、基準、代碼及檢查點已發佈於https://github.com/PhoenixZ810/OmniAlign-V。
高效的注意力機制實現對於大型模型至關重要,這是由於其二次方時間複雜度的特性。幸運的是,注意力機制通常表現出稀疏性,即注意力圖中的許多值接近於零,這使得我們可以省略相應的計算。許多研究已經利用這種稀疏模式來加速注意力計算。然而,現有的大多數工作主要集中於通過利用注意力圖的特定稀疏模式來優化特定模型內的注意力計算。一種既能保證速度提升又能確保多樣化模型端到端性能的通用稀疏注意力機制仍然難以實現。在本論文中,我們提出了SpargeAttn,一種適用於任何模型的通用稀疏量化注意力機制。我們的方法採用了一種兩階段在線過濾器:在第一階段,我們快速且準確地預測注意力圖,從而能夠跳過注意力計算中的某些矩陣乘法。在第二階段,我們設計了一種無額外開銷的在線softmax感知過濾器,進一步跳過一些矩陣乘法。實驗表明,我們的方法在不犧牲端到端指標的情況下,顯著加速了包括語言、圖像和視頻生成在內的多樣化模型。代碼可在https://github.com/thu-ml/SpargeAttn獲取。
背景一致性仍然是圖像編輯任務中的一個重大挑戰。儘管已有廣泛的發展,現有方法仍面臨在保持與原始圖像相似性和生成符合目標內容之間的取捨。在此,我們提出了KV-Edit,這是一種無需訓練的方法,利用DiTs中的KV快取來維持背景一致性,其中背景標記被保留而非重新生成,從而消除了對複雜機制或昂貴訓練的需求,最終在用戶指定區域內生成與背景無縫融合的新內容。我們進一步探討了編輯過程中KV快取的記憶體消耗,並使用無反轉方法將空間複雜度優化至O(1)。我們的方法與任何基於DiT的生成模型兼容,無需額外訓練。實驗表明,KV-Edit在背景和圖像質量方面顯著優於現有方法,甚至超越了基於訓練的方法。項目網頁可訪問:https://xilluill.github.io/projectpages/KV-Edit。
多層圖像生成是一項基礎任務,它使用戶能夠隔離、選擇和編輯特定的圖像層,從而革新了與生成模型的互動方式。在本文中,我們介紹了匿名區域變換器(ART),它基於全局文本提示和匿名區域佈局,直接生成可變的多層透明圖像。受圖式理論啟發,該理論認為知識是組織在框架(圖式)中的,這些框架使人們能夠通過將新信息與先前的知識聯繫起來來解釋和學習新信息。這種匿名區域佈局允許生成模型自主決定哪一組視覺標記應與哪一組文本標記對齊,這與之前主導的圖像生成任務的語義佈局形成對比。此外,層級區域裁剪機制僅選擇屬於每個匿名區域的視覺標記,顯著降低了注意力計算成本,並實現了具有眾多不同層(例如50+)的圖像的高效生成。與全注意力方法相比,我們的方法速度提高了12倍以上,並且顯示出更少的層衝突。此外,我們提出了一種高質量的多層透明圖像自動編碼器,支持以聯合方式直接編碼和解碼可變多層圖像的透明度。通過實現精確控制和可擴展的層生成,ART為互動內容創作建立了一個新的範式。
計算技術的快速發展大幅提升了大型語言模型(LLMs)訓練的規模與成本。在模型訓練前準確預測下游任務表現,對於資源的高效分配至關重要,然而這一目標仍面臨兩大主要挑戰:(1)「湧現現象」,即下游性能指標僅在經過大量訓練後才具備意義,這限制了使用較小模型進行預測的能力;(2)任務難度分佈不均及缺乏一致的擴展規律,導致性能指標存在顯著波動。現有的性能預測方法在準確性和可靠性方面存在局限,從而阻礙了對LLM潛在能力的評估。為應對這些挑戰,我們提出了一種基於難度聚類(Clustering-On-Difficulty, COD)的下游性能預測框架。COD首先通過根據難度特徵對任務進行聚類,構建一個可預測的支持子集,策略性地排除非湧現性和不可擴展的聚類。選定子集上的得分作為對完整評估集下游性能的有效中間預測指標。在理論支持下,我們推導出一個映射函數,將性能指標從可預測子集轉換至完整評估集,從而確保了LLM下游性能的準確外推。所提方法已應用於預測一個70B LLM的性能擴展,為訓練資源分配提供了可操作的見解,並協助監控訓練過程。值得注意的是,COD通過集成小模型,在70B LLM上實現了顯著的預測準確性,在八個重要的LLM評估基準上展示了1.36%的絕對平均偏差。
科學實驗是人類進步的基石,要獲得有意義的結果,需要在可靠性、方法控制和可解釋性方面嚴謹。儘管大型語言模型(LLMs)在自動化科學過程的不同方面具有越來越強大的能力,但自動化嚴謹的實驗仍然是一個重大挑戰。為了解決這一問題,我們提出了 Curie,這是一個人工智能代理框架,旨在通過三個關鍵組件將嚴謹性融入實驗過程中:一個內部代理嚴謹性模塊以增強可靠性,一個互相代理嚴謹性模塊以保持方法控制,以及一個實驗知識模塊以增強可解釋性。為了評估 Curie,我們設計了一個新穎的實驗基準,包括來自具有影響力的研究論文和廣泛採用的開源項目的四個計算機科學領域的 46 個問題。與測試的最強基準相比,我們在正確回答實驗問題方面實現了 3.4 倍的改進。Curie 的開源代碼位於 https://github.com/Just-Curieous/Curie。
近期研究探索了結合不同LoRA以共同生成學習到的風格與內容。然而,現有方法要么無法同時有效保留原始主體與風格,要么需要額外的訓練。本文主張,LoRA的內在特性能夠有效引導擴散模型融合學習到的主體與風格。基於此洞察,我們提出了K-LoRA,一種簡單而無需訓練的LoRA融合方法。在每個注意力層中,K-LoRA比較待融合的每個LoRA中的Top-K元素,決定選擇哪個LoRA以實現最佳融合。這種選擇機制確保了在融合過程中保留主體與風格最具代表性的特徵,有效平衡了它們的貢獻。實驗結果表明,所提方法有效整合了原始LoRA學習到的主體與風格信息,在質性與量化結果上均優於現有的基於訓練的方法。
為了利用視覺資訊,多模態大型語言模型(MLLM)依賴其視覺編碼器的感知過程。視覺感知的完整性和準確性顯著影響空間推理、細粒度理解等任務的精確度。然而,MLLM目前仍缺乏自主控制其視覺感知過程的能力,例如選擇性地審查圖像的特定區域或聚焦於與特定物件類別相關的資訊。在本研究中,我們提出了「視覺感知標記」的概念,旨在賦予MLLM一種機制來控制其視覺感知過程。我們設計了兩種類型的視覺感知標記,分別稱為「區域選擇標記」和「視覺重新編碼標記」。MLLM自主生成這些標記,就像生成文本一樣,並利用它們觸發額外的視覺感知動作。區域選擇標記明確識別圖像中需要進一步感知的特定區域,而視覺重新編碼標記則利用其隱藏狀態作為控制信號,引導額外的視覺感知過程。大量實驗證明了這些標記在處理空間推理、提升細粒度理解等任務中的優勢。平均而言,引入視覺感知標記使一個20億參數模型的性能提升了23.6%,其得分從0.572提高至0.708,甚至比一個70億參數模型高出13.4%(從0.624)。請查看我們的代碼庫:https://github.com/yu-rp/VisualPerceptionToken。
在大型語言模型(LLM)的預訓練過程中,訓練穩定性是一個持續存在的挑戰,尤其是對於Post-Norm Transformer等架構,這些架構容易出現梯度爆炸和消散的問題。本文提出了一種新穎的方法——尺度分佈解耦(Scale-Distribution Decoupling, SDD),通過顯式地解耦全連接層中權重矩陣的尺度和分佈來穩定訓練。SDD應用了一種歸一化機制來調節激活值,並使用可學習的縮放向量來維持良好的梯度條件,從而有效防止梯度爆炸和消散。這種分離通過確保穩定的梯度傳播,特別是在深度網絡中,提高了優化效率。實驗結果表明,我們的方法在各種LLM架構中均能穩定訓練,並且在不同歸一化配置下優於現有技術。此外,所提出的方法輕量且與現有框架兼容,使其成為穩定LLM訓練的實用解決方案。代碼可在https://github.com/kaihemo/SDD獲取。
我們推出WebGames,這是一個全面的基準測試套件,旨在通過50多個互動挑戰來評估通用網頁瀏覽AI代理的能力。這些挑戰特別設計為對人類而言直觀簡單,同時系統性地測試當前AI系統在基本瀏覽器互動、高級輸入處理、認知任務、工作流程自動化及互動娛樂等方面的局限。我們的框架通過一個封閉的測試環境消除了外部依賴,確保了可重現的評估與可驗證的真實解決方案。我們評估了包括GPT-4o、Claude Computer-Use、Gemini-1.5-Pro和Qwen2-VL在內的領先視覺語言模型,並與人類表現進行對比。結果顯示出顯著的能力差距,最佳AI系統的成功率僅為43.1%,而人類表現則達到95.7%,這突顯了當前AI系統在處理人類認為直觀的常見網頁互動模式上的根本限制。該基準測試公開於webgames.convergence.ai,提供了一個輕量級的客戶端實現,便於快速評估循環。通過其模塊化架構和標準化的挑戰規範,WebGames為衡量更強大網頁瀏覽代理的開發進展提供了堅實的基礎。
出於降低大型語言模型(LLMs)計算與存儲成本的考量,模型壓縮及鍵值快取(KV Cache)壓縮技術已引起研究者的廣泛關注。然而,現有方法主要聚焦於確保壓縮後LLMs的性能不減,其衡量標準多為困惑度(perplexity)或在常識問答及基礎算術推理任務上的簡單準確率。本文簡要回顧了近期LLMs在檢索增強生成、多步推理、外部工具利用及計算表達力等方面的進展,這些技術顯著提升了LLM的性能。基於此,我們提出了一種“彩票LLM假說”,即對於特定LLM及任務,存在一個更小的“彩票LLM”,在藉助多步推理與外部工具的情況下,能夠達到與原LLM相當的性能。結合對LLM當前進展的梳理,我們探討並總結了現有方法中常被忽視的,彩票LLM與KV Cache壓縮所必需具備的核心能力。
近年來,多模態大型語言模型(MLLMs)在視覺識別任務中取得了快速進展。考慮到它們可能被整合到許多關鍵應用中,理解其視覺感知的局限性至關重要。在本研究中,我們探討了MLLMs在回答圖像相關問題時,是否能夠像感知大尺寸視覺內容一樣有效地感知細小視覺細節。我們觀察到,其表現對問題中視覺主體的大小非常敏感,並通過干預研究進一步證明這種影響實際上是因果性的。接著,我們研究了MLLMs在回答視覺問題時的注意力模式,有趣地發現,即使它們給出了錯誤答案,也始終知道該關注圖像的哪個部分。基於這些發現,我們隨後提出了無需訓練的視覺干預方法,這些方法利用任何MLLM自身的內部知識,以注意力和梯度圖的形式,來增強其對細小視覺細節的感知能力。我們在兩個廣泛使用的MLLMs和七個視覺問答基準上評估了我們提出的方法,結果表明,這些方法能夠顯著提高MLLMs的準確性,而無需任何訓練。我們的研究結果闡明了將MLLMs應用於涉及細小細節的視覺識別任務的風險,並表明利用模型內部狀態進行視覺干預是緩解這一風險的一個有前景的方向。
大型語言模型(LLM)的評估通常依賴於如準確率或人類偏好等聚合指標,這些指標對使用者和提示進行了平均處理。這種平均化掩蓋了模型性能在使用者和提示層面的特定變化。為解決這一問題,我們提出了提示到排行榜(Prompt-to-Leaderboard, P2L)方法,該方法能生成針對特定提示的排行榜。其核心思想是訓練一個LLM,以自然語言提示作為輸入,輸出布萊德利-特里係數向量,這些係數隨後用於預測人類偏好投票。由此產生的提示依賴性排行榜允許進行無監督的任務特定評估、查詢到模型的最佳路由、個性化以及模型優缺點的自動化評估。來自Chatbot Arena的數據表明,P2L比平均化的排行榜更能捕捉語言模型性能的細微差異。此外,我們的研究發現,P2L生成提示特定評估的能力遵循與LLM自身觀察到的冪律擴展相似的法則。2025年1月,基於此方法訓練的路由器在Chatbot Arena排行榜上取得了第一名的位置。我們的代碼可在以下GitHub鏈接獲取:https://github.com/lmarena/p2l。
迭代數據生成與模型重訓練被廣泛用於對齊大型語言模型(LLMs)。這一過程通常涉及一個策略模型來生成在策略回應,以及一個獎勵模型來指導訓練數據的選擇。直接偏好優化(DPO)通過構建選擇與拒絕回應的偏好對,進一步增強了這一流程。在本研究中,我們旨在通過重複隨機採樣來擴大在策略樣本的數量,從而提升對齊性能。傳統做法是選取獎勵最高的樣本作為選擇,獎勵最低的作為拒絕,用於DPO。然而,我們的實驗表明,隨著樣本量的增加,此策略會導致性能下降。為解決這一問題,我們從樣本獎勵的基礎正態分布視角出發,探討了偏好數據的構建。我們將獎勵空間劃分為七個代表性點,並系統性地探索了所有21種(C_7^2)配對組合。通過在AlpacaEval 2上對四個模型的評估,我們發現選擇位於獎勵位置mu - 2sigma的拒絕回應,而非最低獎勵,對實現最佳性能至關重要。最終,我們提出了一種可擴展的偏好數據構建策略,該策略隨著樣本規模的擴大,持續提升模型性能。
本文介紹了LDGen,這是一種將大型語言模型(LLMs)整合到現有文本到圖像擴散模型中的新方法,同時最大限度地減少計算需求。傳統的文本編碼器,如CLIP和T5,在多語言處理方面存在局限性,阻礙了跨多種語言的圖像生成。我們通過利用LLMs的先進能力來應對這些挑戰。我們的方法採用了一種語言表示策略,該策略應用分層標題優化和人類指令技術來提取精確的語義信息。隨後,我們引入了一個輕量級適配器和跨模態精煉器,以促進LLMs與圖像特徵之間的高效特徵對齊和交互。LDGen減少了訓練時間,並實現了零本多語言圖像生成。實驗結果表明,我們的方法在提示遵循和圖像美學質量方面均超越了基準模型,同時無縫支持多種語言。項目頁面:https://zrealli.github.io/LDGen。
聽覺基礎模型,包括聽覺大語言模型(LLMs),對所有聲音輸入進行均等處理,與聽者的感知無關。然而,人類的聽覺感知本質上是選擇性的:在複雜的聽覺場景中,聽者會專注於特定說話者而忽略其他聲音。現有模型並未融入這種選擇性,限制了其生成與感知一致的回應能力。為此,我們提出了意圖感知的聽覺場景理解(II-ASU),並展示了聽覺注意力驅動的LLM(AAD-LLM),這是一個整合腦信號以推斷聽者注意力的原型系統。AAD-LLM通過結合顱內腦電圖(iEEG)記錄來擴展聽覺LLM,解碼聽者正在關注的說話者並據此精煉回應。該模型首先從神經活動預測被關注的說話者,然後根據這一推斷的注意力狀態來條件化回應生成。我們在多說話者場景中評估了AAD-LLM在說話者描述、語音轉錄與提取以及問答任務上的表現,客觀和主觀評分均顯示其與聽者意圖的對齊度有所提升。通過向意圖感知的聽覺AI邁出第一步,這項工作探索了一種新的範式,即聽者感知指導機器聽覺,為未來以聽者為中心的聽覺系統鋪平了道路。演示與代碼可訪問:https://aad-llm.github.io。
大型語言模型(LLMs)已成為人工智慧(AI)領域中的變革性工具,在文本生成、推理和決策等多樣化任務中展現出卓越的能力。雖然其成功主要得益於計算能力和深度學習架構的進步,但在不確定性量化、決策制定、因果推理和分佈偏移等新興問題領域,需要更深入地結合統計學的專業知識。本文探討了統計學家在LLMs發展中可能做出重要貢獻的潛在領域,特別是那些旨在增強人類用戶信任度和透明度的方面。因此,我們聚焦於不確定性量化、可解釋性、公平性、隱私保護、數字水印和模型適應等問題。同時,我們也考慮了LLMs在統計分析中的可能角色。通過橋接AI與統計學,我們旨在促進更深層次的合作,以推進LLMs的理論基礎和實際應用,最終塑造其在應對複雜社會挑戰中的角色。
狀態空間模型(SSMs),如Mamba,已成為長上下文序列建模中變換器(transformers)的高效替代方案。然而,儘管其應用日益廣泛,SSMs仍缺乏對於理解和改進基於注意力架構至關重要的可解釋性工具。雖然近期的研究提供了對Mamba內部機制的洞察,但這些研究並未明確分解各個詞元的貢獻,導致在理解Mamba如何跨層選擇性處理序列方面存在空白。在本研究中,我們提出了LaTIM,一種針對Mamba-1和Mamba-2的新穎詞元級分解方法,實現了細粒度的可解釋性。我們在多樣化的任務上廣泛評估了該方法,包括機器翻譯、複製以及基於檢索的生成,證明了其在揭示Mamba詞元間交互模式方面的有效性。
我們推出Shakti VLM系列,這是一組參數量分別為10億和40億的視覺語言模型,旨在解決多模態學習中的數據效率挑戰。儘管近期的視覺語言模型通過大量訓練數據取得了優異性能,Shakti模型則通過架構創新,以更少的token實現了競爭力的結果。關鍵進展包括用於注意力穩定性的QK正規化、混合正規化技術,以及增強的位置編碼。三階段訓練策略進一步優化了學習效率。評估顯示,Shakti-VLM-1B和Shakti-VLM-4B在文檔理解、視覺推理、OCR提取及通用多模態推理方面表現卓越。我們的結果表明,高性能可以通過模型設計和訓練策略而非單純的數據量來實現,這使得Shakti成為企業級多模態任務的高效解決方案。
我們介紹了WiCkeD,這是一種簡單的方法,通過隨機將選項替換為「以上皆非」來增加現有多項選擇基準的複雜性,這種方法在教育測試中經常使用。我們展示了WiCkeD可以自動應用於任何現有的基準,使其更具挑戰性。我們將WiCkeD應用於6個流行的基準,並用它來評估18個開源權重的大型語言模型(LLMs)。與原始數據集版本相比,模型的性能平均下降了12.1個百分點。在3個MMLU數據集上使用思維鏈時,WiCkeD變體的性能下降與直接使用LLMs時觀察到的下降相似,這表明WiCkeD對於具有增強推理能力的模型也具有挑戰性。WiCkeD還揭示了一些模型對額外推理需求的敏感性,提供了相對於原始基準的額外信息。我們在https://github.com/ahmedselhady/wicked-benchmarks發布了我們的代碼和數據。
現代語言模型依賴於預訓練前固定的靜態詞彙表,這與人類語言學習中觀察到的適應性詞彙獲取形成對比。為彌合這一差距,我們引入了詞彙課程學習方法,該方法相對於詞彙大小實現了對數線性比例的預訓練效率提升。我們的方法在熵引導的詞彙擴展和模型優化之間交替進行,使模型能夠學習跨多種分詞粒度的可遷移表示。這種方法自然產生了一種最佳的計算分配模式:較長的詞彙捕捉可預測的內容,而較短的詞彙則專注於更複雜、更難預測的上下文。在小型GPT模型上的實驗展示了改進的擴展效率,強化了動態分詞的有效性。我們公開了代碼以支持進一步研究,並計劃將實驗擴展到更大的模型和更多樣化的領域。