AI研究論文每日精選

每日精選AI研究論文及翻譯

在建構視覺語言模型時有哪些重要事項？
What matters when building vision-language models?

May 3

ByHugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh

103

對視覺語言模型（VLMs）日益增長的興趣是由於大型語言模型和視覺Transformer的改進所驅動。儘管有許多關於這個主題的文獻，我們觀察到在設計VLMs時，關鍵決策通常沒有得到合理的證明。我們認為這些不受支持的決策阻礙了該領域的進展，因為這使得很難確定哪些選擇能提高模型的性能。為了解決這個問題，我們圍繞預訓練模型、架構選擇、數據和訓練方法進行了大量實驗。我們的研究結果包括開發了Idefics2，一個具有80億參數的高效基礎VLM。Idefics2在各種多模態基準測試中實現了同類型模型中的最先進性能，並且通常與其四倍大小的模型不相上下。我們釋出了該模型（基本、指導和對話）以及為其訓練而創建的數據集。

RLHF 工作流程：從獎勵建模到線上 RLHF
RLHF Workflow: From Reward Modeling to Online RLHF

May 13

ByHanze Dong, Wei Xiong, Bo Pang, Haoxiang Wang, Han Zhao, Yingbo Zhou, Nan Jiang, Doyen Sahoo, Caiming Xiong, Tong Zhang

在本技術報告中，我們介紹了來自人類反饋的在線迭代強化學習（RLHF）的工作流程，根據最近大型語言模型（LLM）文獻，這種方法被廣泛報導在性能上大幅優於其離線對應。然而，現有的開源RLHF項目仍然主要局限於離線學習環境。在本技術報告中，我們旨在填補這一空白，提供一個易於重現的在線迭代RLHF的詳細步驟。特別是，由於對於資源有限的開源社區來說，在線人類反饋通常是不可行的，我們首先通過使用多樣的開源數據集構建偏好模型，並使用構建的代理偏好模型來近似人類反饋。然後，我們討論在線迭代RLHF背後的理論見解和算法原則，並提供詳細的實際實施步驟。我們訓練的LLM，SFR-Iterative-DPO-LLaMA-3-8B-R，在LLM聊天機器人基準測試中取得了令人印象深刻的表現，包括AlpacaEval-2、Arena-Hard和MT-Bench，以及其他學術基準測試，如HumanEval和TruthfulQA。我們已經證明，監督微調（SFT）和迭代RLHF可以使用完全開源的數據集獲得最先進的性能。此外，我們已經將我們的模型、精選數據集和詳盡的逐步代碼指南公開提供。更多詳細信息請參閱https://github.com/RLHFlow/RLHF-Reward-Modeling和https://github.com/RLHFlow/Online-RLHF。

SUTRA：可擴展多語言語言模型架構
SUTRA: Scalable Multilingual Language Model Architecture

May 7

ByAbhijit Bendale, Michael Sapienza, Steven Ripplinger, Simon Gibbs, Jaewon Lee, Pranav Mistry

本文介紹了 SUTRA，一種多語言大型語言模型架構，能夠理解、推理和生成超過 50 種語言的文本。SUTRA 的設計獨特地將核心概念理解與特定語言處理解耦，從而促進可擴展和高效的多語言對齊和學習。在語言和概念處理中採用專家混合模型框架，SUTRA 展示了計算效率和響應性。通過廣泛的評估，證明 SUTRA 在領先的大規模多任務語言理解（MMLU）基準測試中比現有模型如 GPT-3.5、Llama2 表現提高了 20-30%。SUTRA 模型也是在線的大型語言模型，可以利用網絡知識提供無幻覺、真實且最新的回應，同時保留其多語言能力。此外，我們探討了其架構對未來多語言人工智慧的更廣泛影響，突顯了其潛力在全球民眾中實現人工智慧技術的民主化，並改善在主要使用非英語的地區中人工智慧的公平性和實用性。我們的研究結果表明，SUTRA 不僅填補了多語言模型能力方面的關鍵空白，還為人工智慧應用中的運營效率和可擴展性建立了新的基準。

SambaNova SN40L：通過數據流和專家組合來擴展人工智慧記憶壁
SambaNova SN40L: Scaling the AI Memory Wall with Dataflow and Composition of Experts

May 13

ByRaghu Prabhakar, Ram Sivaramakrishnan, Darshan Gandhi, Yun Du, Mingran Wang, Xiangyu Song, Kejie Zhang, Tianren Gao, Angela Wang, Karen Li, Yongning Sheng, Joshua Brot, Denis Sokolov, Apurv Vivek, Calvin Leung, Arjun Sabnis, Jiayu Bai, Tuowen Zhao, Mark Gottscho, David Jackson, Mark Luttrell, Manish K. Shah, Edison Chen, Kaizhao Liang, Swayambhoo Jain, Urmish Thakker, Dawei Huang, Sumti Jairath, Kevin J. Brown, Kunle Olukotun

像GPT-4這樣的單體大型語言模型（LLMs）為現代生成式人工智慧應用奠定了基礎。然而，在規模上訓練、提供服務和維護單體LLMs仍然成本高昂且具有挑戰性。現代人工智慧加速器計算與記憶體比例的不成比例增加造成了記憶體壁，迫使採用新方法來部署人工智慧。專家組合（CoE）是一種降低訓練和提供服務成本和複雜性的替代模塊化方法。然而，這種方法在使用傳統硬體時存在兩個主要挑戰：（1）沒有融合操作，較小的模型具有較低的操作強度，這使得實現高利用率更具挑戰性；以及（2）托管大量模型可能既成本高昂又在動態切換之間速度緩慢。在本文中，我們描述了如何結合CoE、串流資料流和三層記憶體系統來擴展人工智慧記憶體壁。我們描述了Samba-CoE，這是一個具有150位專家和總參數數量達一兆的CoE系統。我們將Samba-CoE部署在SambaNova SN40L可重構資料流單元（RDU）上，這是一種商用資料流加速器架構，專為企業推理和訓練應用而共同設計。該晶片引入了一個新的三層記憶體系統，包括片上分佈式SRAM、封裝上的HBM和封裝外的DDR DRAM。一個專用的RDU間網路使得在多個插槽上進行擴展和擴展成為可能。我們展示了在八個RDU插槽上運行各種基準測試時，與未融合基準相比，速度提升範圍從2倍到13倍不等。我們展示了對於CoE推理部署，8個插槽的RDU節點可將機器佔地面積減少高達19倍，將模型切換時間加快15倍至31倍，並在DGX H100上實現整體速度提升3.7倍，並在DGX A100上實現6.6倍的速度提升。

MS MARCO Web Search：一個包含數百萬真實點擊標籤的大規模資訊豐富的網頁數據集
MS MARCO Web Search: a Large-scale Information-rich Web Dataset with Millions of Real Click Labels

May 13

ByQi Chen, Xiubo Geng, Corby Rosset, Carolyn Buractaon, Jingwen Lu, Tao Shen, Kun Zhou, Chenyan Xiong, Yeyun Gong, Paul Bennett, Nick Craswell, Xing Xie, Fan Yang, Bryan Tower, Nikhil Rao, Anlei Dong, Wenqi Jiang, Zheng Liu, Mingqin Li, Chuanjie Liu, Zengzhong Li, Rangan Majumder, Jennifer Neville, Andy Oakley, Knut Magne Risvik, Harsha Vardhan Simhadri, Manik Varma, Yujing Wang, Linjun Yang, Mao Yang, Ce Zhang

最近在大型模型方面取得的突破凸顯了數據規模、標籤和模態的關鍵重要性。本文介紹了 MS MARCO Web Search，這是第一個大規模信息豐富的網絡數據集，包含數百萬個真實點擊的查詢-文檔標籤。該數據集緊密模擬了真實世界的網絡文檔和查詢分佈，為各種下游任務提供豐富信息，並鼓勵在各個領域進行研究，例如通用端到端神經索引器模型、通用嵌入模型，以及具有大型語言模型的下一代信息訪問系統。MS MARCO Web Search 提供了一個檢索基準，包含三個網絡檢索挑戰任務，需要在機器學習和信息檢索系統研究領域進行創新。作為滿足大規模、真實和豐富數據要求的第一個數據集，MS MARCO Web Search 為人工智能和系統研究的未來進步鋪平了道路。MS MARCO Web Search 數據集可在以下鏈接找到：https://github.com/microsoft/MS-MARCO-Web-Search。

Piccolo2：具有多任務混合損失訓練的通用文本嵌入
Piccolo2: General Text Embedding with Multi-task Hybrid Loss Training

May 11

ByJunqin Huang, Zhongjie Hu, Zihao Jing, Mengya Gao, Yichao Wu

在本報告中，我們介紹了 Piccolo2，一個在 CMTEB 基準測試的 6 項任務中超越其他模型的嵌入模型，創立了新的最先進技術。Piccolo2 主要利用高效的多任務混合損失訓練方法，有效地利用來自不同下游任務的文本數據和標籤。此外，Piccolo2 擴展了嵌入維度並使用 MRL 訓練以支持更靈活的向量維度。有關 Piccolo 模型的最新信息可通過以下網址獲取：https://huggingface.co/sensenova/

Plot2Code：一個全面的基準測試，用於評估多模態大型語言模型在從科學圖中生成程式碼的能力。
Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots

May 13

ByChengyue Wu, Yixiao Ge, Qiushan Guo, Jiahao Wang, Zhixuan Liang, Zeyu Lu, Ying Shan, Ping Luo

多模式大型語言模型（MLLMs）取得了顯著進展，由於其在視覺情境中的卓越表現，吸引了相當大的關注。然而，它們在將視覺圖轉換為可執行代碼的能力尚未得到充分評估。為了解決這個問題，我們引入了Plot2Code，這是一個全面的視覺編碼基準，旨在公平且深入地評估MLLMs。我們精心收集了132個手動選定的高質量matplotlib圖，涵蓋六種圖表類型，這些圖表來自公開可用的matplotlib畫廊。對於每個圖表，我們仔細提供其源代碼，以及由GPT-4總結的描述性指導。這種方法使得Plot2Code能夠全面評估MLLMs在各種輸入模式下的代碼能力。此外，我們提出了三個自動評估指標，包括代碼通過率、文本匹配比率和GPT-4V總體評分，用於對輸出代碼和渲染圖像進行細緻評估。我們不僅僅是判斷通過或失敗，而是利用GPT-4V對生成的圖像和參考圖像進行總體評估，這已被證明與人類評估一致。評估結果包括對14個MLLMs（如專有的GPT-4V、Gemini-Pro和開源的Mini-Gemini）的分析，突顯了Plot2Code所面臨的重大挑戰。通過Plot2Code，我們揭示了大多數現有MLLMs在文本密集圖表的視覺編碼方面存在困難，嚴重依賴於文本指導。我們希望Plot2Code對視覺編碼的評估結果將指導MLLMs未來的發展。Plot2Code涉及的所有數據均可在https://huggingface.co/datasets/TencentARC/Plot2Code 上獲得。

LogoMotion：視覺基礎的程式碼生成，用於內容感知動畫
LogoMotion: Visually Grounded Code Generation for Content-Aware Animation

May 11

ByVivian Liu, Rubaiat Habib Kazi, Li-Yi Wei, Matthew Fisher, Timothy Langlois, Seth Walker, Lydia Chilton

動畫標誌是個人和品牌在線上展示自己的一種引人注目且普遍的方式。手動製作這些標誌可能需要相當的藝術技巧和努力。為了幫助新手設計師製作動畫標誌，設計工具目前提供模板和動畫預設。然而，這些解決方案在表現範圍上可能有限。大型語言模型有潛力幫助新手設計師通過生成適合其內容的動畫代碼來創建動畫標誌。在本文中，我們介紹了一個名為LogoMotion的基於LLM的系統，該系統接受分層文檔並通過視覺基礎的程序合成生成動畫標誌。我們介紹了創建畫布的HTML表示、識別主要和次要元素、合成動畫代碼以及視覺調試動畫錯誤的技術。與行業標準工具相比，我們發現LogoMotion生成的動畫更具內容意識，並在質量方面不相上下。最後，我們討論了LLM生成動畫對運動設計的影響。

大型語言模型作為規劃領域生成器
Large Language Models as Planning Domain Generators

Apr 2

ByJames Oswald, Kavitha Srinivas, Harsha Kokel, Junkyu Lee, Michael Katz, Shirin Sohrabi

在 AI 計畫中，發展領域模型是少數仍需要人工勞動的領域之一。因此，為了使計畫更易於存取，自動化領域模型生成的過程是可取的。為此，我們探討了是否可以利用大型語言模型（LLMs）從簡單的文本描述中生成計畫領域模型。具體而言，我們引入了一個框架，用於通過比較領域實例的計畫集來自動評估由LLM生成的領域。最後，我們對7個大型語言模型進行了實證分析，包括跨越9個不同計畫領域的編碼和聊天模型，並在三類自然語言領域描述下進行了評估。我們的結果顯示，LLMs，特別是具有高參數數量的模型，展現了從自然語言描述中生成正確計畫領域的中等水準能力。我們的程式碼可在 https://github.com/IBM/NL2PDDL 找到。

AI研究論文每日精選

每日精選AI研究論文及翻譯

在建構視覺語言模型時有哪些重要事項？
What matters when building vision-language models?

May 3

ByHugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh

103

RLHF 工作流程：從獎勵建模到線上 RLHF
RLHF Workflow: From Reward Modeling to Online RLHF

May 13

ByHanze Dong, Wei Xiong, Bo Pang, Haoxiang Wang, Han Zhao, Yingbo Zhou, Nan Jiang, Doyen Sahoo, Caiming Xiong, Tong Zhang

SUTRA：可擴展多語言語言模型架構
SUTRA: Scalable Multilingual Language Model Architecture

May 7

ByAbhijit Bendale, Michael Sapienza, Steven Ripplinger, Simon Gibbs, Jaewon Lee, Pranav Mistry

SambaNova SN40L：通過數據流和專家組合來擴展人工智慧記憶壁
SambaNova SN40L: Scaling the AI Memory Wall with Dataflow and Composition of Experts

May 13

MS MARCO Web Search：一個包含數百萬真實點擊標籤的大規模資訊豐富的網頁數據集
MS MARCO Web Search: a Large-scale Information-rich Web Dataset with Millions of Real Click Labels

May 13

Piccolo2：具有多任務混合損失訓練的通用文本嵌入
Piccolo2: General Text Embedding with Multi-task Hybrid Loss Training

May 11

ByJunqin Huang, Zhongjie Hu, Zihao Jing, Mengya Gao, Yichao Wu

Plot2Code：一個全面的基準測試，用於評估多模態大型語言模型在從科學圖中生成程式碼的能力。
Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots

May 13

ByChengyue Wu, Yixiao Ge, Qiushan Guo, Jiahao Wang, Zhixuan Liang, Zeyu Lu, Ying Shan, Ping Luo

LogoMotion：視覺基礎的程式碼生成，用於內容感知動畫
LogoMotion: Visually Grounded Code Generation for Content-Aware Animation

May 11

ByVivian Liu, Rubaiat Habib Kazi, Li-Yi Wei, Matthew Fisher, Timothy Langlois, Seth Walker, Lydia Chilton

大型語言模型作為規劃領域生成器
Large Language Models as Planning Domain Generators

Apr 2

ByJames Oswald, Kavitha Srinivas, Harsha Kokel, Junkyu Lee, Michael Katz, Shirin Sohrabi