每日精選AI研究論文及翻譯
儘管近年來取得了巨大進展,生成式視頻模型仍然難以捕捉真實世界的運動、動態和物理特性。我們指出這一限制源於傳統的像素重建目標,該目標使模型偏向外觀保真度,而忽略了運動一致性。為了解決這個問題,我們引入了VideoJAM,這是一個新穎的框架,通過鼓勵模型學習聯合外觀-運動表示,為視頻生成器注入了有效的運動先驗。VideoJAM由兩個互補的單元組成。在訓練期間,我們擴展了目標,以從單一學習表示中預測生成的像素及其對應的運動。在推斷期間,我們引入了Inner-Guidance,一種機制,通過利用模型自身不斷演進的運動預測作為動態引導信號,引導生成向一致運動方向發展。值得注意的是,我們的框架可以應用於任何視頻模型,只需進行最小的調整,無需修改訓練數據或調整模型規模。VideoJAM在運動一致性方面實現了最先進的性能,超越了高度競爭性的專有模型,同時提高了生成物的視覺質量。這些發現強調了外觀和運動可以互補,並且當有效整合時,可以提高視覺質量和視頻生成的一致性。項目網站:https://hila-chefer.github.io/videojam-paper.github.io/
近年來,程式碼模型的大部分進展都是由監督微調(SFT)推動的,而強化學習(RL)的潛力仍然大部分未被探索,主要是由於在程式碼領域中缺乏可靠的獎勵數據/模型。本文通過利用自動化的大規模測試用例合成來增強程式碼模型訓練來應對這一挑戰。具體來說,我們設計了一個流程,從現有的程式碼數據中生成大量(問題,測試用例)對。利用這些測試用例,我們基於對抽樣程序的通過率構建偏好對,以訓練具有 Bradley-Terry 損失的獎勵模型。通過最佳的 32 次抽樣,Llama-3.1-8B-Ins 平均提高了 10 分,Qwen2.5-Coder-7B-Ins 提高了 5 分,使得 7B 模型與 236B DeepSeek-V2.5 齊平。此外,我們使用兩種獎勵模型和測試用例通過獎勵進行強化學習,在 HumanEval、MBPP、BigCodeBench 和 LiveCodeBench(V4)中實現了持續的改進。值得注意的是,我們採用 R1 風格的訓練,直接從 Qwen2.5-Coder-base 開始,並展示了我們的強化學習訓練可以使模型在 HumanEval-plus 上提高超過 25\%,在 MBPP-plus 上提高 6\%,僅需 80 次優化步驟。我們相信我們的結果突顯了強化學習在程式碼模型中的巨大潛力。
學習擴散橋模型相對容易;使其快速且實用則是一門藝術。擴散橋模型(DBMs)是擴散模型的一個有前途的延伸,適用於影像到影像的轉換應用。然而,像許多現代擴散和流模型一樣,DBMs 遭受緩慢推論的問題。為了解決這個問題,我們提出了一種基於逆橋匹配公式的新型蒸餾技術,並推導出可行的目標以實際解決它。與先前開發的 DBM 蒸餾技術不同,所提出的方法可以蒸餾有條件和無條件類型的 DBMs,蒸餾模型在一步生成器中,並僅使用損壞的影像進行訓練。我們在廣泛的設置中評估我們的方法,包括超分辨率、JPEG 恢復、素描到影像等任務,並展示我們的蒸餾技術使我們能夠將 DBMs 的推論加速從 4 倍到 100 倍,甚至根據特定設置提供比使用的教師模型更好的生成質量。
大型語言模型(LLMs)展示了在不同領域中卓越的推理能力。最近的研究表明,增加測試時的計算可以增強LLMs的推理能力。這通常涉及在推論時進行廣泛的採樣,由外部LLM驗證器指導,形成一個雙人系統。儘管受到外部指導,但這個系統的有效性展示了單個LLM應對複雜任務的潛力。因此,我們提出了一個新的研究問題:我們是否可以內部化搜索能力,從而從根本上增強單個LLM的推理能力?本文探討了一個正交方向,專注於用於自回歸搜索的事後訓練LLMs(即,通過自我反思和自我探索新策略進行擴展推理過程)。為了實現這一目標,我們提出了行動思維鏈(COAT)推理和兩階段訓練範式:1)小規模格式調整階段,以內部化COAT推理格式;2)大規模自我改進階段,利用強化學習。我們的方法產生了Satori,一個在開源模型和數據上訓練的7B LLM。廣泛的實證評估表明,Satori在數學推理基準測試中實現了最先進的性能,同時對領域外任務具有強大的泛化能力。代碼、數據和模型將完全開源。
語言代理已成為處理複雜互動任務的一個有前途的解決方案。語言代理成功的關鍵之一是代理工作流軌跡上的獎勵模型,該模型在訓練或推論過程中提供有價值的指導。然而,由於中間互動的標註缺乏,大多數現有作品使用結果獎勵模型來優化整個軌跡上的策略。這可能導致次優策略並阻礙整體性能。為了解決這個問題,我們提出了QLASS(Q引導語言代理逐步搜索),通過逐步估計Q值來自動生成開放語言代理的標註。通過引入推理樹並執行過程獎勵建模,QLASS為每一步提供了有效的中間指導。借助逐步指導,我們提出了一種Q引導生成策略,使語言代理能夠更好地適應長期價值,從而在複雜互動代理任務的模型推論過程中實現顯著的性能改善。值得注意的是,即使使用了幾乎一半的標註數據,QLASS仍保持著強大的性能,展示了其在應對有限監督方面的效率。我們還通過定性分析實證證明,QLASS能夠引導更有效的決策制定。我們將釋出我們的代碼和數據。
本文探討了大型語言模型(LLMs)中一個未被充分探討的挑戰:KV快取壓縮方法對LLMs基本能力的影響。現有方法在長文本基準上實現了令人印象深刻的壓縮比,但它們對核心模型能力的影響仍未受到充分研究。我們提出了一項全面的實證研究,評估了不同任務中突出的KV快取壓縮方法,涵蓋世界知識、常識推理、算術推理、代碼生成、安全性以及長文本理解和生成。我們的分析顯示,KV快取壓縮方法展現出任務特定的性能降級。算術推理任務對積極壓縮特別敏感,不同方法的性能下降範圍為17.4%至43.3%。值得注意的是,DeepSeek R1 Distill模型相較於指令調整模型表現出更強的壓縮容忍度,僅表現出9.67%至25.53%的性能降級。基於我們對注意力模式和跨任務壓縮性能的分析,我們提出了ShotKV,一種新穎的壓縮方法,明顯處理預填充和解碼階段,同時保持了基於shot的語義連貫性。實證結果顯示,ShotKV在積極壓縮比下,長文本生成任務實現了9%至18%的性能改善。
將來自不同來源的輸出進行整合是提升效能的一種直接而有效的方法。Mixture-of-Agents(MoA)是一種流行的集成方法,它匯總來自多個不同大型語言模型(LLMs)的輸出。本文在語言模型的背景下提出了一個問題:混合不同的LLMs是否真的有益處?我們提出了Self-MoA — 一種集成方法,僅匯總來自單一表現最佳的LLM的輸出。我們的廣泛實驗顯示,令人驚訝的是,Self-MoA在許多情況下優於混合不同LLMs的標準MoA:Self-MoA在AlpacaEval 2.0基準測試中比MoA提高了6.6%,在包括MMLU、CRUX和MATH在內的各種基準測試中平均提高了3.8%。將Self-MoA應用於AlpacaEval 2.0中排名靠前的模型之一,直接實現了排行榜上的最新最佳表現。為了了解Self-MoA的效果,我們系統地探討了在不同MoA設置下多樣性和輸出質量之間的權衡。我們確認MoA的表現對質量非常敏感,混合不同的LLMs通常會降低模型的平均質量。為了補充研究,我們確定了混合不同LLMs可能有助的情況。本文進一步介紹了Self-MoA的連續版本,能夠在多輪次中動態地匯總大量LLM輸出,並與一次性匯總所有輸出一樣有效。
儘管文本到圖像生成模型取得了顯著進展,但容易受到對抗攻擊,並且會意外生成不安全、不道德的內容。現有方法通常依賴微調模型來消除特定概念,這在計算上昂貴,缺乏可擴展性,或者會影響生成質量。在這項工作中,我們提出了一個新的框架,利用 k-稀疏自編碼器(k-SAEs)在擴散模型中實現高效且可解釋的概念操作。具體而言,我們首先在文本嵌入的潛在空間中識別可解釋的單義概念,並利用它們精確地引導生成遠離或朝向特定概念(例如裸露)或引入新概念(例如攝影風格)。通過大量實驗,我們證明我們的方法非常簡單,無需重新訓練基礎模型或 LoRA 轉接器,不會影響生成質量,並且對對抗提示操作具有強韌性。我們的方法在不安全概念去除方面實現了 20.01% 的改進,在風格操作方面效果顯著,並且比當前最先進的方法快 5 倍。
基於取樣的搜尋是一種利用測試時計算的簡單範式,涉及生成多個候選回應並選擇最佳回應,通常是通過驗證每個回應的正確性來實現。本文研究了影響基於取樣的搜尋的擴展趨勢。我們的研究發現之一是,僅通過擴展一個僅使用隨機取樣和直接自我驗證的簡約實現,就可以實現持續的性能改進,例如,將Gemini v1.5 Pro模型的推理能力提升至流行基準測試中o1-Preview模型之上。我們部分歸因於基於取樣的搜尋的可擴展性,這是一種隱式擴展現象,其中取樣更大的回應池進一步提高了驗證準確性。我們進一步確定了兩個有用的原則,用於通過測試時計算來提高自我驗證能力:(1)跨回應比較提供了關於錯誤和幻覺位置的有用信號,(2)不同的模型輸出風格適用於不同情境,思維鏈對於推理是有用的,但更難驗證。我們還發現,儘管可以引出準確的驗證,但前沿模型展示了明顯薄弱的即插即用驗證能力,並引入了一個基準測試來衡量這些缺陷上的進展。
本文介紹了COCONut-PanCap數據集,旨在增強全景分割和基於圖像的圖像標題生成。該數據集在COCO數據集的基礎上建立了先進的COCONut全景遮罩,旨在克服現有圖像文本數據集的局限,這些數據集通常缺乏詳細的、全面的場景描述。COCONut-PanCap數據集融合了基於全景分割遮罩的精細化區域級標題,確保了一致性並提高了生成標題的細節。通過人工編輯的密集標註描述,COCONut-PanCap支持改進視覺語言模型(VLMs)的訓練,用於圖像理解和文本到圖像任務的生成模型。實驗結果表明,COCONut-PanCap在理解和生成任務中顯著提升了性能,為大規模數據集提供了互補性好處。該數據集為評估模型在聯合全景分割和基於圖像的標題生成任務上的表現設立了新的基準,滿足了多模態學習中高質量、詳細的圖像文本標註的需求。
創建計算機輔助設計(CAD)模型需要豐富的專業知識和努力。將文本轉換為CAD參數序列的文本至CAD技術,在簡化這個過程中至關重要。最近的研究利用地面真實參數序列,稱為序列信號,作為監督以實現此目標。然而,CAD模型在本質上是多模態的,包括參數序列和相應的渲染視覺對象。此外,從參數序列到視覺對象的渲染過程是多對一的。因此,序列信號和視覺信號對於有效訓練至關重要。在這項工作中,我們介紹CADFusion,一個使用大型語言模型(LLMs)作為骨幹,並在兩個訓練階段之間交替的框架:序列學習(SL)階段和視覺反饋(VF)階段。在SL階段,我們使用地面真實參數序列訓練LLMs,從而使其能夠生成邏輯上連貫的參數序列。在VF階段,我們獎勵將渲染為視覺上首選對象的參數序列,並懲罰那些不能,使LLMs能夠學習如何感知和評估渲染的視覺對象。這兩個階段在整個訓練過程中交替進行,確保平衡學習並保留兩種信號的優勢。實驗表明,CADFusion在質量和量化方面顯著提高了性能。
對文本到圖像模型進行定制,使用戶能夠插入自定義概念並在未見過的場景中生成這些概念。現有方法要麼依賴昂貴的測試時間優化,要麼在單圖像訓練數據集上訓練編碼器而缺乏多圖像監督,導致圖像質量較差。我們提出了一種簡單的方法來解決這兩個限制。首先,我們利用現有的文本到圖像模型和3D數據集創建了一個高質量的合成定制數據集(SynCD),其中包含同一對象在不同光線、背景和姿勢下的多張圖像。然後,我們提出了一種基於共享注意機制的新編碼器架構,更好地將輸入圖像的細粒度視覺細節納入其中。最後,我們提出了一種新的推理技術,通過對文本和圖像引導向量進行歸一化,從而減輕推理過程中的過曝問題。通過大量實驗,我們展示了我們的模型,在合成數據集上訓練,使用所提出的編碼器和推理算法,優於現有的無調整方法在標准定制基準測試中的表現。
在設備上微調大型語言模型(LLMs)正吸引越來越多的關注。最近的研究將低秩適應(LoRA)技術與聯邦微調相結合,以減輕與設備模型大小和數據稀缺相關的挑戰。然而,計算資源的異質性仍然是一個關鍵瓶頸:雖然較高秩的模塊通常會增強性能,但不同的設備能力限制了LoRA可行的秩範圍。現有的解決這個問題的方法要麼缺乏分析證明,要麼會增加額外的計算負擔,這為一個高效且理論基礎的解決方案留下了很大的空間。為應對這些挑戰,我們提出了聯邦素描LoRA(FSLoRA),它利用素描機制使設備能夠選擇性地更新由服務器維護的全局LoRA模塊的子矩陣。通過調整素描比例,這些比例確定了設備上子矩陣的秩,FSLoRA可以靈活地適應特定設備的通信和計算限制。我們提供了FSLoRA的嚴格收斂分析,該分析描述了素描比例如何影響收斂速度。通過對多個數據集和LLM模型進行全面實驗,我們展示了FSLoRA相對於各種基準的卓越性能。
大型語言模型(LLMs)展示了在各個領域中卓越的能力。隨著LLMs不斷演進的能力和擴展的部署場景,由於它們龐大的規模和著名模型系列(如Llama、Gemma和Mistral)中普遍存在的先進但複雜的激活設計,它們的部署挑戰也隨之升級。這些挑戰在資源受限的部署場景中尤為明顯,因此在這些情況下,緩解推論效率瓶頸至關重要。在眾多最近的努力中,激活近似已經成為追求推論效率的一條有前途的途徑,有時被認為在私密推論等應用中是不可或缺的。儘管在最小程度上對效用影響不大地實現了顯著的加速,甚至對於現實世界的部署來說看起來是穩健且實用的,激活近似的安全影響仍不明朗。在這項工作中,我們通過對激活近似進行首次系統性安全評估來填補LLM安全領域的關鍵空白。我們的安全審查涵蓋了三個熱門類別中的七種最先進技術,揭示了十個與安全相關的LLMs中一致的安全降級。