每日精選AI研究論文及翻譯
數學推理對語言模型來說是一項重大挑戰,因為其複雜且結構化的特性。本文介紹了 DeepSeekMath 7B,它在 Common Crawl 中提取了 120B 與數學相關的 token,並與自然語言和程式碼數據一起對 DeepSeek-Coder-Base-v1.5 7B 進行了持續預訓練。DeepSeekMath 7B 在不依賴外部工具包和投票技術的情況下,在競賽級 MATH 基準測試中取得了令人印象深刻的 51.7% 分數,接近 Gemini-Ultra 和 GPT-4 的表現水平。DeepSeekMath 7B 的 64 個樣本上的自我一致性達到了 60.9% 的 MATH 分數。DeepSeekMath 的數學推理能力歸因於兩個關鍵因素:首先,我們通過精心設計的數據選擇流程,利用公開可用的網絡數據的巨大潛力。其次,我們引入了 Group Relative Policy Optimization (GRPO),這是 Proximal Policy Optimization (PPO) 的一個變體,它增強了數學推理能力,同時優化了 PPO 的內存使用。
文字轉圖模型通過允許用戶通過自然語言引導圖像生成過程,提供了新的創意靈活性水平。然而,通過這些模型在不同提示下一致描繪相同主題仍然具有挑戰性。現有方法對模型進行微調,以教導它描述特定用戶提供的主題的新詞彙,或者向模型添加圖像條件。這些方法需要冗長的每個主題優化或大規模預訓練。此外,它們難以將生成的圖像與文本提示對齊,並且在描繪多個主題時遇到困難。在這裡,我們提出了ConsiStory,一種無需訓練的方法,通過共享預訓練模型的內部激活來實現一致的主題生成。我們引入了一個主題驅動的共享注意塊和基於對應的特徵注入,以促進圖像之間的主題一致性。此外,我們制定了策略,以鼓勵版面多樣性,同時保持主題一致性。我們將ConsiStory與一系列基準進行比較,展示了在主題一致性和文本對齊方面的最新性能,而無需進行任何優化步驟。最後,ConsiStory可以自然擴展到多主題場景,甚至實現無需訓練的常見物件個性化。
為了幫助開源社區更好地理解基於專家混合(MoE)的大型語言模型(LLMs),我們訓練並發布了OpenMoE,這是一系列完全開源且可復現的僅解碼器MoE LLMs,參數範圍從650M到34B,訓練樣本數達到超過1T。我們的研究證實,基於MoE的LLMs可以提供比密集LLMs更有利的成本效益折衷,突顯了未來LLM發展的潛在效果。 此研究的另一重要貢獻是對我們OpenMoE模型內部路由機制的深入分析,得出三個重要發現:上下文獨立專業化、早期路由學習和朝末端丟棄。我們發現,MoE模型中的路由決策主要基於標記ID,與上下文相關性極小。標記到專家的分配在預訓練階段早期確定並基本保持不變。這種不完善的路由可能導致性能下降,特別是在多輪對話等順序任務中,後續出現的標記更有可能被丟棄。 最後,我們根據上述觀察和分析重新思考我們的設計。為了促進未來MoE LLM的發展,我們提出了潛在的策略,以減輕我們發現的問題並進一步改進現成的MoE LLM設計。
最近,狀態空間模型(SSMs)在大規模語言建模基準測試中展現出與變壓器競爭力相當的表現,同時在序列長度方面實現了線性時間和記憶體複雜度。最近推出的SSM模型Mamba在語言建模和長序列處理任務中展現出令人印象深刻的表現。與此同時,專家混合(MoE)模型展現出卓越的性能,同時顯著降低了推理的計算和延遲成本,但以更大的記憶體占用為代價。在本文中,我們提出了BlackMamba,一種結合了Mamba SSM和MoE以獲取兩者優勢的新型架構。我們展示了BlackMamba在與Mamba和變壓器基準的競爭中表現出色,並在推理和訓練FLOPs方面表現優異。我們完全訓練並開源了300B tokens自定義數據集上的340M/1.5B和630M/2.8B BlackMamba模型。我們展示了BlackMamba繼承並結合了SSM和MoE架構的優勢,將來自SSM的線性複雜度生成與來自MoE的便宜和快速推理結合在一起。我們開源了所有權重、檢查點和推理代碼。推理代碼位於:https://github.com/Zyphra/BlackMamba
在過去十年中,可解釋機器學習作為一個引人關注的領域迅速蓬勃發展,這是由日益增長的大型數據集和深度神經網絡的興起所推動的。與此同時,大型語言模型(LLMs)展示了在各種任務中的卓越能力,為重新思考可解釋機器學習中的機遇提供了機會。值得注意的是,以自然語言解釋的能力使得LLMs能夠擴展可以提供給人類的規模和複雜性的模式。然而,這些新能力也帶來了新的挑戰,如虛構的解釋和巨大的計算成本。 在這篇立場論文中,我們首先回顧了評估新興LLM解釋領域的現有方法(既解釋LLMs又使用LLMs進行解釋)。我們主張,儘管存在一些限制,LLMs有機會通過更富有野心的範疇重新定義可解釋性,涵蓋眾多應用,包括審計LLMs本身。我們強調了LLM解釋的兩個新興研究重點:使用LLMs直接分析新數據集和生成互動式解釋。
將語言模型(LMs)與經過精心挑選的人類反饋進行對齊對於控制它們在實際應用中的行為至關重要。一些最近的政策優化方法,如DPO和SLiC,作為傳統人類反饋強化學習(RLHF)方法的有希望的替代方案。在實踐中,人類反饋通常以對多個回應的排名列表的形式出現,以攤提閱讀提示的成本。多個回應也可以由獎勵模型或人工智能反饋進行排名。目前缺乏直接擬合回應列表的研究。在這項工作中,我們將LM對齊定義為一個列表排序問題,並描述了列表偏好優化(LiPO)框架,其中策略可以潛在地更有效地從給定提示的一個排名合理回應列表中學習。這種觀點與學習排序(LTR)形成明確聯繫,在那裡大多數現有的偏好優化工作可以映射到現有的排名目標,特別是成對的目標。在這種聯繫之後,我們對於尚未為LM對齊研究的排名目標進行了檢驗,DPO和SLiC作為列表大小為兩時的特例。特別是,我們突出了一種特定方法,LiPO-λ,它利用了最先進的列表排序目標,並以更高級的方式加權每個偏好對。我們展示了LiPO-λ在兩個偏好對齊任務上可以明顯優於DPO和SLiC。
最近的文本轉視頻擴散模型取得了令人印象深刻的進展。在實踐中,用戶通常希望能夠獨立控制物體運動和攝像機運動,以定制視頻創作。然而,目前的方法缺乏專注於以解耦方式分別控制物體運動和攝像機運動,這限制了文本轉視頻模型的可控性和靈活性。在本文中,我們介紹了Direct-a-Video,這是一個系統,允許用戶獨立指定一個或多個物體的運動和/或攝像機運動,就像指導一部視頻一樣。我們提出了一種簡單而有效的策略,用於分離控制物體運動和攝像機運動。通過使用模型固有先驗進行空間交叉注意力調節來控制物體運動,無需額外的優化。對於攝像機運動,我們引入了新的時間交叉注意力層來解釋定量的攝像機運動參數。我們進一步採用基於增強的方法,在小規模數據集上以自監督方式訓練這些層,消除了對明確運動標註的需求。這兩個組件可以獨立運行,允許單獨或結合控制,並且可以推廣到開放領域場景。大量實驗證明了我們方法的優越性和有效性。項目頁面:https://direct-a-video.github.io/。
我們介紹了InteractiveVideo,這是一個以使用者為中心的影片生成框架。與傳統的生成方法不同,傳統方法是基於使用者提供的圖像或文字,我們的框架設計用於動態互動,允許使用者通過各種直觀的機制在整個生成過程中指導生成模型,例如文字和圖像提示、繪畫、拖放等。我們提出了一種協同多模式指導機制,旨在將使用者的多模式指導無縫集成到生成模型中,從而促進使用者輸入與生成過程之間的合作和響應式互動。這種方法通過精確和有效的使用者指令實現了生成結果的迭代和精細調整。有了InteractiveVideo,使用者可以靈活地細致定製影片的關鍵方面。他們可以繪製參考圖像、編輯語義,並調整影片動作,直到滿足他們的要求。代碼、模型和演示可在以下鏈接找到:https://github.com/invictus717/InteractiveVideo
現代大型語言模型(LLMs)的結構剪枝已成為降低其高計算需求的一種方法。寬度剪枝減少投影權重矩陣的大小(例如,通過移除注意力頭),同時保持層數不變。相反,深度剪枝則刪除整個層或塊,同時保持剩餘權重的大小不變。目前大多數研究集中在僅寬度或寬度和深度剪枝的混合方法上,對於這兩種單元(寬度與深度)對LLM推理效率的影響缺乏比較分析。在這項工作中,我們展示了一種簡單的深度剪枝方法可以在零-shot任務表現方面與最近的寬度剪枝方法競爭。我們的剪枝方法提高了推理速度,特別是在需要運行LLMs的有限批量大小的內存受限條件下,此時寬度剪枝效果不佳。我們希望這項工作能幫助在本地和邊緣設備上部署LLMs。
人類所居住的地球與現代 AI 代理人所創造的數字領域之間存在著感知上的鴻溝。為了開發能夠在現實世界中像人類一樣靈活感知、思考和行動的 AI 代理人,必須彌合數字和物理世界之間的現實差距。我們如何能夠在一個像我們所居住的環境中賦予代理人身體,而又不受真實硬體和控制所加諸的限制?為了達到這個目的,我們引入了 V-IRL:一個讓代理人能夠在虛擬但寫實環境中與現實世界進行可擴展互動的平台。我們的平台既是一個用於開發能夠完成各種實際任務的代理人的遊樂場,也是一個用於測量跨越全球範圍的感知、決策和與現實世界數據互動能力進展的廣闊實驗平臺。
鑒於多模式大型語言模型(LLM)的最新進展,人們越來越關注將其從圖像文本數據擴展到更具信息量的現實世界視頻。與靜態圖像相比,視頻對於有效的大規模預訓練提出了獨特挑戰,原因在於需要對其時空動態進行建模。本文通過一種高效的視頻分解方法來解決視頻語言預訓練中的這些限制,該方法將每個視頻表示為關鍵幀和時間運動。然後,通過設計良好的分詞器將其適應到LLM中,將視覺和時間信息離散化為少量標記,從而實現視頻、圖像和文本的統一生成式預訓練。在推斷階段,從LLM生成的標記被精心還原到原始連續像素空間,以創建各種視頻內容。我們提出的框架既能理解又能生成圖像和視頻內容,這一點在13個圖像和視頻理解和生成的多模式基準測試中得到了證實。我們的代碼和模型將在https://video-lavit.github.io 上提供。
對於大型語言模型(LLMs)進行擴展,以理解音訊,包括非語音聲音和非語言言語,對於LLMs的多樣現實應用至關重要。在本文中,我們提出了一種名為Audio Flamingo的新型音訊語言模型,具備以下特點:1)強大的音訊理解能力,2)通過上下文學習和檢索快速適應未見任務的能力,以及3)強大的多輪對話能力。我們引入了一系列訓練技術、架構設計和數據策略,以增強我們的模型具備這些能力。通過在各種音訊理解任務上進行廣泛評估,證實了我們方法的有效性,並創立了新的最先進基準。
大型語言模型(LLMs)的強大能力已通過眾多數據和計算資源得到證明。然而,在移動設備上應用語言模型面臨著計算和記憶成本的巨大挑戰,即迫切需要高性能的微小語言模型。受高度複雜的訓練過程的限制,對於優化語言模型的許多細節很少受到仔細研究。在這項研究中,基於具有10億參數的微小語言模型,我們精心設計了一系列實證研究,以分析每個組件的影響。主要討論了三個觀點,即神經架構、參數初始化和優化策略。幾個設計公式在實證中被證明對微小語言模型特別有效,包括分詞器壓縮、架構調整、參數繼承和多輪訓練。然後,我們在1.6T多語種語料庫上訓練了PanGu-pi-1B Pro和PanGu-pi-1.5B Pro,遵循已確立的公式。實驗結果表明,改進的優化和架構使PanGu-pi-1B Pro在基準評估集上實現了明顯的平均改進,為8.87。此外,PanGu-pi-1.5B Pro超越了一系列具有更大模型尺寸的SOTA模型,驗證了其卓越性能。代碼將很快發布(https://github.com/YuchuanTian/RethinkTinyLM)。
最近的研究顯示,規模化的程式碼語言模型在下游任務,即程式碼生成上表現出顯著的性能提升。然而,大部分現有的程式碼表示學習作品是在一億參數規模上訓練模型,並使用非常有限的預訓練語料庫。在這項工作中,我們通過兩階段的預訓練方案,利用大量的程式碼數據來推動程式碼表示學習。我們首先通過一種混合方法訓練編碼器,該方法利用了在遮罩語言建模中的隨機性以及編程語言的結構方面。然後,我們通過對比學習來增強這些表示,其中硬負樣本和硬正樣本是以非監督方式構建的。我們建立了一個即插即用的編碼器模型,它在各種下游任務上持續以很大的優勢勝過現有模型。為了理解導致成功的程式碼表示學習的因素,我們進行了詳細的消融實驗,並分享了我們的研究發現,包括:(i) 針對源代碼的定制和有效的標記級去噪方案的重要性;(ii) 硬負樣本和硬正樣本的重要性;(iii) 提出的雙模對比學習如何提升跨語言語義搜索性能;以及 (iv) 預訓練方案如何決定模型規模與下游任務性能規模之間的關係。
近幾年來,大規模文本到圖像(T2I)擴散模型已經在圖像生成領域引起了革命。儘管具有多樣且高質量的生成能力,將這些能力應用於精細的圖像編輯仍然具有挑戰性。本文提出了DiffEditor,以糾正現有基於擴散的圖像編輯中的兩個弱點:(1)在複雜情境中,編輯結果往往缺乏編輯準確性並呈現意外的瑕疵;(2)缺乏協調編輯操作的靈活性,例如,想像新內容。在我們的解決方案中,我們引入了圖像提示在精細的圖像編輯中,與文本提示合作以更好地描述編輯內容。為了提高靈活性並保持內容一致性,我們將隨機微分方程(SDE)局部結合到常微分方程(ODE)採樣中。此外,我們將區域分數基於梯度引導和時間旅行策略融入擴散採樣,進一步提高編輯質量。大量實驗表明,我們的方法可以有效地在各種精細的圖像編輯任務上實現最先進的性能,包括在單張圖像內進行編輯(例如,物體移動、調整大小和拖動內容)以及跨圖像進行編輯(例如,替換外觀和粘貼物體)。我們的源代碼已發布在 https://github.com/MC-E/DragonDiffusion。