AI研究論文每日精選

每日精選AI研究論文及翻譯

StarCoder 2 和 The Stack v2：下一代
StarCoder 2 and The Stack v2: The Next Generation

Feb 29

ByAnton Lozhkov, Raymond Li, Loubna Ben Allal, Federico Cassano, Joel Lamy-Poirier, Nouamane Tazi, Ao Tang, Dmytro Pykhtar, Jiawei Liu, Yuxiang Wei, Tianyang Liu, Max Tian, Denis Kocetkov, Arthur Zucker, Younes Belkada, Zijian Wang, Qian Liu, Dmitry Abulkhanov, Indraneil Paul, Zhuang Li, Wen-Ding Li, Megan Risdal, Jia Li, Jian Zhu, Terry Yue Zhuo, Evgenii Zheltonozhskii, Nii Osae Osae Dade, Wenhao Yu, Lucas Krauß, Naman Jain, Yixuan Su, Xuanli He, Manan Dey, Edoardo Abati, Yekun Chai, Niklas Muennighoff, Xiangru Tang, Muhtasham Oblokulov, Christopher Akiki, Marc Marone, Chenghao Mou, Mayank Mishra, Alex Gu, Binyuan Hui, Tri Dao, Armel Zebaze, Olivier Dehaene, Nicolas Patry, Canwen Xu, Julian McAuley, Han Hu, Torsten Scholak, Sebastien Paquet, Jennifer Robinson, Carolyn Jane Anderson, Nicolas Chapados, Mostofa Patwary, Nima Tajbakhsh, Yacine Jernite, Carlos Muñoz Ferrandis, Lingming Zhang, Sean Hughes, Thomas Wolf, Arjun Guha, Leandro von Werra, Harm de Vries

152

BigCode計劃是一個開放科學合作項目，專注於負責任地開發用於程式碼的大型語言模型（Code LLMs），並推出StarCoder2。我們與Software Heritage（SWH）合作，在其源代碼存檔的數位共享平台上構建了The Stack v2。除了SWH存儲的619種編程語言的存儲庫外，我們還精心挑選其他高質量的數據來源，如GitHub拉取請求、Kaggle筆記本和代碼文檔。這導致訓練集比第一個StarCoder數據集大4倍。我們使用3.3到4.3萬億令牌對StarCoder2模型進行了3B、7B和15B參數的訓練，並在一套全面的Code LLM基準測試中進行了全面評估。我們發現，我們的小型模型StarCoder2-3B在大多數基準測試中優於其他相同大小的Code LLM，並且優於StarCoderBase-15B。我們的大型模型StarCoder2-15B明顯優於其他相同大小的模型。此外，它與CodeLlama-34B匹敵，後者是其兩倍大小的模型。儘管DeepSeekCoder-33B是高資源語言代碼完成的表現最佳模型，但我們發現StarCoder2-15B在數學和代碼推理基準測試以及幾種低資源語言上的表現優於它。我們通過OpenRAIL許可證提供模型權重，並通過發布源代碼數據的SoftWare Heritage持久標識符（SWHIDs）確保訓練數據的完全透明。

Griffin：將閘控線性循環與局部注意力相結合，以提高語言模型效率
Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

Feb 29

BySoham De, Samuel L. Smith, Anushan Fernando, Aleksandar Botev, George Cristian-Muraru, Albert Gu, Ruba Haroun, Leonard Berrada, Yutian Chen, Srivatsan Srinivasan, Guillaume Desjardins, Arnaud Doucet, David Budden, Yee Whye Teh, Razvan Pascanu, Nando De Freitas, Caglar Gulcehre

循環神經網絡（RNN）在長序列上具有快速推斷和高效擴展的特性，但訓練困難且難以擴展。我們提出了Hawk，一種具有閘控線性循環的RNN，以及Griffin，一種混合模型，將閘控線性循環與局部注意力相結合。Hawk在下游任務的表現超越了Mamba的報告，而Griffin儘管僅訓練了超過6倍少的標記，但與Llama-2的表現相匹配。我們還展示了Griffin能夠在訓練期間未見的遠比訓練序列長得多的序列上進行外推。我們的模型在訓練期間與Transformer的硬體效率相匹配，並且在推斷期間具有更低的延遲和顯著更高的吞吐量。我們將Griffin擴展至14B參數，並解釋了如何對我們的模型進行有效的分佈式訓練。

超越語言模型：位元模型是數位世界模擬器。
Beyond Language Models: Byte Models are Digital World Simulators

Feb 29

ByShangda Wu, Xu Tan, Zili Wang, Rui Wang, Xiaobing Li, Maosong Sun

傳統的深度學習常常忽略了位元組，這是數位世界中的基本單位，所有形式的資訊和操作都是以二進制格式編碼和操作的。受自然語言處理中下一個標記預測成功的啟發，我們引入了bGPT，一個具有下一個位元組預測的模型，以模擬數位世界。bGPT在各種模式下，包括文本、音訊和影像方面的表現與專門化模型相匹敵，並為預測、模擬和診斷演算法或硬體行為提供了新的可能性。它幾乎完美地複製了將符號音樂資料轉換的過程，將ABC樂譜轉換為MIDI格式的錯誤率僅為每位元組0.0011位元。此外，bGPT在模擬CPU行為方面展現出卓越的能力，執行各種操作的準確率超過99.99%。利用下一個位元組預測，像bGPT這樣的模型可以直接從龐大的二進制資料中學習，有效地模擬數位世界的複雜模式。

Panda-70M：使用多模教師為 70M 個影片加上標題
Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

Feb 29

ByTsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina Deyneka, Hsiang-wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin-Ying Lee, Jian Ren, Ming-Hsuan Yang, Sergey Tulyakov

數據和標註的質量上限了下游模型的質量。儘管存在大量的文本語料庫和圖像-文本對，但高質量的視訊-文本數據卻難以收集。首先，手動標記更耗時，因為需要標註者觀看整個視訊。其次，視頻具有時間維度，由多個場景堆疊在一起，展示多個動作。因此，為了建立具有高質量標題的視頻數據集，我們提出了一種自動方法，利用多模態輸入，如文本視頻描述、字幕和單獨的視頻幀。具體而言，我們從公開可用的高清-VILA-100M數據集中精選了380萬高分辨率視頻。然後，我們將它們分割成語義一致的視頻片段，並應用多個跨模態教師模型來為每個視頻獲取標題。接下來，我們在一個小子集上對檢索模型進行微調，在這個子集中手動選擇每個視頻的最佳標題，然後在整個數據集中使用該模型來選擇最佳標題作為標註。通過這種方式，我們獲得了7000萬個與高質量文本標題配對的視頻。我們將該數據集命名為Panda-70M。我們展示了所提出數據集在三個下游任務上的價值：視頻標題生成、視頻和文本檢索以及文本驅動的視頻生成。在所提出的數據上訓練的模型在所有任務的大多數指標上得分顯著更好。

人形機器人的運動作為下一個標記預測。
Humanoid Locomotion as Next Token Prediction

Feb 29

ByIlija Radosavovic, Bike Zhang, Baifeng Shi, Jathushan Rajasegaran, Sarthak Kamat, Trevor Darrell, Koushil Sreenath, Jitendra Malik

我們將現實世界中的人形控制視為下一個標記預測問題，類似於語言中預測下一個單詞。我們的模型是一個因果Transformer，通過感覺運動軌跡的自回歸預測進行訓練。為了考慮數據的多模態性，我們以模態對齊的方式進行預測，對於每個輸入標記，從相同模態中預測下一個標記。這種通用的制定方式使我們能夠利用具有缺失模態的數據，例如沒有動作的視頻軌跡。我們在一組來自先前神經網絡策略、基於模型的控制器、運動捕捉數據和YouTube人類視頻的模擬軌跡上訓練我們的模型。我們展示了我們的模型使一個全尺寸的人形機器人能夠在舊金山實現零樣本行走。我們的模型可以在僅訓練了27小時的行走數據的情況下轉移到現實世界，並且可以泛化到訓練中未見過的命令，如向後行走。這些發現表明了通過生成感覺運動軌跡的建模來學習具有挑戰性的現實世界控制任務的有前途的途徑。

MOSAIC：一個模塊化的輔助和互動烹飪系統
MOSAIC: A Modular System for Assistive and Interactive Cooking

Feb 29

ByHuaxiaoyue Wang, Kushal Kedia, Juntao Ren, Rahma Abdullah, Atiksh Bhardwaj, Angela Chao, Kelly Y Chen, Nathaniel Chin, Prithwish Dan, Xinyi Fan, Gonzalo Gonzalez-Pumariega, Aditya Kompella, Maximus Adrian Pace, Yash Sharma, Xiangwan Sun, Neha Sunkara, Sanjiban Choudhury

我們提出了 MOSAIC，一種模塊化架構，用於家用機器人執行複雜的協作任務，例如與日常用戶一起烹飪。MOSAIC與人類緊密協作，使用自然語言與用戶互動，協調多個機器人，並管理日常物品的開放詞彙。在其核心，MOSAIC採用模塊化：它利用多個大規模預訓練模型進行一般任務，如語言和圖像識別，同時使用為特定任務設計的精簡模塊進行控制。我們在60個端到端試驗中對MOSAIC進行了廣泛評估，其中兩個機器人與一名人類用戶合作烹飪6種食譜的組合。我們還對個別模塊進行了廣泛測試，包括180個視覺運動撿取情節，60個人體運動預測情節，以及46個任務計劃器的在線用戶評估。我們展示了MOSAIC能夠通過與真實人類用戶一起運行整個系統端到端，有效地與人類協作，完成了6種不同食譜的68.3%（41/60）協作烹飪試驗，子任務完成率為91.6%。最後，我們討論了當前系統的限制以及這一領域中令人興奮的開放挑戰。該項目的網站位於https://portal-cornell.github.io/MOSAIC/。

DistriFusion：用於高解析度擴散模型的分散式並行推論
DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models

Feb 29

ByMuyang Li, Tianle Cai, Jiaxin Cao, Qinsheng Zhang, Han Cai, Junjie Bai, Yangqing Jia, Ming-Yu Liu, Kai Li, Song Han

擴散模型在合成高品質影像方面取得了巨大成功。然而，使用擴散模型生成高解析度影像仍然具有挑戰性，這是因為龐大的計算成本導致互動應用的延遲過高。本文提出了DistriFusion來應對這個問題，通過利用多個GPU之間的平行處理。我們的方法將模型輸入分割成多個區塊，並將每個區塊分配給一個GPU。然而，單純實現這樣的算法會破壞區塊之間的互動並且失去保真度，而引入這樣的互動將帶來巨大的通訊開銷。為了克服這個困境，我們觀察到相鄰擴散步驟之間的輸入具有很高的相似性，並提出了位移區塊平行處理，利用擴散過程的順序性，通過重複使用上一時間步的預先計算的特徵圖來為當前步驟提供上下文。因此，我們的方法支持非同步通訊，可以通過計算進行流水線處理。大量實驗表明，我們的方法可以應用於最新的Stable Diffusion XL，並實現與單個GPU相比高達6.1倍的加速。我們的代碼可以在https://github.com/mit-han-lab/distrifuser 公開獲取。

簡單線性注意力語言模型平衡了召回率和吞吐量之間的折衷。
Simple linear attention language models balance the recall-throughput tradeoff

Feb 28

BySimran Arora, Sabri Eyuboglu, Michael Zhang, Aman Timalsina, Silas Alberti, Dylan Zinsley, James Zou, Atri Rudra, Christopher Ré

最近的研究表明，基於注意力的語言模型在召回方面表現出色，即在先前上下文中看到的標記中生成的能力。然而，在推理過程中，基於注意力的模型的效率受到 KV-快取的高內存消耗的瓶頸限制。在這項研究中，我們探討是否可以提高語言模型的效率（例如通過降低內存消耗）而不影響召回。通過對各種架構進行實驗和理論分析，我們確定了模型狀態大小和召回能力之間的關鍵折衷。我們發現，與注意力相比，效率更高的替代方法（例如 H3、Mamba、RWKV）保持固定大小的循環狀態，但在召回方面表現不佳。我們提出了一種名為 BASED 的簡單架構，結合了線性和滑動窗口注意力。通過調整 BASED 的窗口大小和線性注意力特徵維度，我們可以調整模型的狀態大小，並在召回-內存折衷曲線的帕累托前沿上移動，一端恢復了注意力的完整質量，另一端則是注意力替代方案的小狀態大小。我們訓練了多達 13 億參數的語言模型，並展示出 BASED 在困惑度方面與最強的次二次模型（例如 Mamba）相匹敵，在真實世界的召回密集任務中表現優異，準確度提高了 6.22 個百分點。線性注意力的實現通常比優化的標準注意力實現效率低。為了使 BASED 具有競爭力，我們開發了 IO-aware 算法，使其在生成 1024 個標記時，使用 13 億參數模型的語言生成比 FlashAttention-2 更高 24 倍的吞吐量。此項工作的代碼可在以下網址找到：https://github.com/HazyResearch/based。

編譯器對大型語言模型的優先採樣
Priority Sampling of Large Language Models for Compilers

Feb 28

ByDejan Grubisic, Chris Cummins, Volker Seeker, Hugh Leather

大型語言模型在生成和優化程式碼方面展現出巨大潛力。廣泛使用的取樣方法，如核心取樣，增加了生成的多樣性，但在低溫度下常產生重複的樣本，在高溫度下則產生不連貫的樣本。此外，溫度係數必須針對每個任務進行調整，限制了其可用性。我們提出了優先取樣，一種簡單且確定性的取樣技術，可按模型的信心順序生成獨特樣本。每個新樣本都會擴展擴增搜索樹中概率最高的未擴展標記。此外，優先取樣支持基於正則表達式的生成，提供可控且結構化的探索過程。優先取樣在任何樣本數量下均優於核心取樣，將原始模型的性能從2.87%提升至5%。此外，僅通過30個樣本，優先取樣就優於用於生成標籤以訓練原始模型的自動調整器。

軌跡一致性蒸餾
Trajectory Consistency Distillation

Feb 29

ByJianbin Zheng, Minghui Hu, Zhongyi Fan, Chaoyue Wang, Changxing Ding, Dacheng Tao, Tat-Jen Cham

潛在一致性模型（LCM）將一致性模型擴展至潛在空間，並利用引導一致性蒸餾技術，在加速文本到圖像合成方面取得了令人印象深刻的表現。然而，我們觀察到LCM 在生成既清晰又詳細複雜的圖像方面存在困難。為了解決這一限制，我們首先深入探討並闡明潛在原因。我們的研究識別出主要問題來自三個不同領域的錯誤。因此，我們引入了軌跡一致性蒸餾（TCD），其中包括軌跡一致性函數和策略性隨機抽樣。軌跡一致性函數通過擴大自一致性邊界條件的範圍，賦予TCD 準確追踪概率流ODE 整個軌跡的能力，從而減少蒸餾錯誤。此外，策略性隨機抽樣專門設計用於規避多步一致性抽樣中積累的錯誤，精心設計以補充TCD 模型。實驗表明，TCD 不僅在低NFEs 下顯著提高圖像質量，而且在高NFEs 下與教師模型相比產生更詳細的結果。

ViewFusion：通過插值去噪實現多視圖一致性
ViewFusion: Towards Multi-View Consistency via Interpolated Denoising

Feb 29

ByXianghui Yang, Yan Zuo, Sameera Ramasinghe, Loris Bazzani, Gil Avraham, Anton van den Hengel

透過擴散模型進行新視角合成已展現出生成多樣且高質量圖像的顯著潛力。然而，在這些主流方法中，圖像生成的獨立過程導致在保持多視角一致性方面面臨挑戰。為解決此問題，我們引入了ViewFusion，一種新穎的、無需訓練的演算法，可以無縫地整合到現有預訓練的擴散模型中。我們的方法採用自回歸方法，隱式地利用先前生成的視角作為下一個視角生成的上下文，確保在新視角生成過程中具有強大的多視角一致性。通過通過插值去噪將已知視角信息融合的擴散過程，我們的框架成功地將單視角條件模型擴展到多視角條件設置中，而無需進行任何額外的微調。大量實驗結果證明了ViewFusion在生成一致且詳細的新視角方面的有效性。

AI研究論文每日精選

每日精選AI研究論文及翻譯

StarCoder 2 和 The Stack v2：下一代
StarCoder 2 and The Stack v2: The Next Generation

Feb 29

152

Griffin：將閘控線性循環與局部注意力相結合，以提高語言模型效率
Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

Feb 29