HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

10 papers found

SFT記憶，RL泛化：基礎模型訓練後的比較研究
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Jan 28

ByTianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma

124

監督微調（SFT）和強化學習（RL）是廣泛應用於基礎模型的事後訓練技術。然而，它們在增強模型泛化能力方面的作用仍不清楚。本文研究了SFT和RL在泛化和記憶方面的差異，重點放在基於文本規則變體和視覺變體上。我們引入了GeneralPoints，一款算術推理紙牌遊戲，並採用V-IRL，一個現實世界的導航環境，來評估使用SFT和RL訓練的模型如何對文本和視覺領域中的未見變體進行泛化。我們展示了RL，特別是當使用基於結果的獎勵進行訓練時，能夠跨越基於規則的文本和視覺變體進行泛化。相比之下，SFT傾向於記憶訓練數據，並且在無分佈情況下難以進行泛化。進一步的分析顯示，RL改善了模型的基礎視覺識別能力，有助於其在視覺領域中的增強泛化。儘管RL具有優越的泛化能力，我們展示了SFT對於有效的RL訓練仍然至關重要；SFT穩定了模型的輸出格式，使後續的RL能夠實現其性能增益。這些發現展示了RL在複雜的多模態任務中獲取可泛化知識的能力。

使用FP4量化優化大型語言模型訓練
Optimizing Large Language Model Training Using FP4 Quantization

Jan 28

ByRuizhe Wang, Yeyun Gong, Xiao Liu, Guoshuai Zhao, Ziyue Yang, Baining Guo, Zhengjun Zha, Peng Cheng

訓練大型語言模型（LLMs）所需的計算需求不斷增加，需要更有效的方法。量化訓練提供了一個有前途的解決方案，通過使用低位算術運算來降低成本。儘管FP8精度已經證明是可行的，但利用FP4仍然是一個挑戰，因為存在著顯著的量化誤差和有限的表示能力。本研究引入了第一個針對LLMs的FP4訓練框架，通過兩個關鍵創新來應對這些挑戰：一個可微分的量化估算器用於精確的權重更新，以及一個異常值夾緊和補償策略來防止激活崩潰。為確保穩定性，該框架集成了混合精度訓練方案和向量化量化。實驗結果表明，我們的FP4框架實現了與BF16和FP8相當的準確性，並具有最小的降級，有效擴展到訓練了高達100B令牌的13B參數LLMs。隨著支持FP4的下一代硬件的出現，我們的框架為高效的超低精度訓練奠定了基礎。

過度分詞的Transformer：詞彙普遍值得調整
Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling

Jan 28

ByHongzhi Huang, Defa Zhu, Banggu Wu, Yutao Zeng, Ya Wang, Qiyang Min, Xun Zhou

Tokenization 是大型語言模型 (LLMs) 的基本組件，然而其對模型擴展和性能的影響尚未完全探討。在本文中，我們介紹了一個新穎的框架，稱為 Over-Tokenized Transformers，該框架將輸入和輸出詞彙解耦以提高語言建模性能。具體而言，我們的方法通過擴展輸入詞彙以利用多字元標記。通過大量實驗，我們揭示了輸入詞彙大小與訓練損失之間的對數線性關係，表明較大的輸入詞彙始終能提升模型性能，無論模型大小如何。使用大型輸入詞彙，我們實現了與雙倍基準線性能相當的表現，而無需額外成本。我們的研究強調了在擴展規則中的 tokenization 的重要性，並為 tokenizer 設計提供了實用見解，為更高效和強大的 LLMs 鋪平了道路。

DiffSplat：將圖像擴散模型重新用於可擴展的高斯擴散生成
DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation

Jan 28

ByChenguo Lin, Panwang Pan, Bangbang Yang, Zeming Li, Yadong Mu

最近在從文字或單張圖像生成3D內容方面取得了一些進展，但仍受限於高質量的3D數據集和2D多視角生成的不一致性。我們引入了DiffSplat，一種新穎的3D生成框架，通過馴服大規模文本到圖像擴散模型，本地生成3D高斯斑點。它與以往的3D生成模型不同之處在於有效地利用網絡規模的2D先驗，同時在統一模型中保持3D一致性。為了啟動訓練，提出了一個輕量級重建模型，可立即生成多視角高斯斑點網格，用於可擴展數據集的編輯。除了這些網格上的常規擴散損失外，還引入了一種3D渲染損失，以促進在任意視角下的3D一致性。與圖像擴散模型的兼容性使得能夠無縫地將眾多圖像生成技術適應到3D領域。大量實驗顯示DiffSplat在文本和圖像條件下的生成任務和下游應用中的優越性。徹底的消融研究驗證了每個關鍵設計選擇的有效性，並提供了對底層機制的見解。

機制性可解釋性中的開放問題
Open Problems in Mechanistic Interpretability

Jan 27

ByLee Sharkey, Bilal Chughtai, Joshua Batson, Jack Lindsey, Jeff Wu, Lucius Bushnaq, Nicholas Goldowsky-Dill, Stefan Heimersheim, Alejandro Ortega, Joseph Bloom, Stella Biderman, Adria Garriga-Alonso, Arthur Conmy, Neel Nanda, Jessica Rumbelow, Martin Wattenberg, Nandi Schoots, Joseph Miller, Eric J. Michaud, Stephen Casper, Max Tegmark, William Saunders, David Bau, Eric Todd, Atticus Geiger, Mor Geva, Jesse Hoogland, Daniel Murfet, Tom McGrath

機制性可解釋性的目標在於理解神經網絡能力背後的計算機制，以實現具體的科學和工程目標。因此，這一領域的進展有望提供對人工智能系統行為更大的保證，並揭示有關智能本質的激動人心的科學問題。儘管在這些目標方面取得了近期的進展，但在這一領域中仍存在許多需要解決的開放問題，才能實現許多科學和實際的好處：我們的方法需要在概念和實踐上進行改進，以揭示更深層次的見解；我們必須找出如何最好地應用我們的方法來追求特定目標；而這一領域必須應對影響並受到我們工作影響的社會技術挑戰。這份前瞻性的回顧討論了機制性可解釋性的當前前沿和該領域可能受益於優先考慮的開放問題。

低秩適配器遇上神經架構搜索，用於LLM壓縮
Low-Rank Adapters Meet Neural Architecture Search for LLM Compression

Jan 23

ByJ. Pablo Muñoz, Jinjie Yuan, Nilesh Jain

大型語言模型（LLMs）的快速擴展對於微調和部署所需的計算資源提出了重大挑戰。低秩適配器的最新進展展示了它們在這些模型的參數高效微調（PEFT）中的功效。本回顧性論文全面討論了將低秩表示與神經架構搜索（NAS）技術相結合的創新方法，特別是權重共享的超網絡。通過整合這些方法，開發了壓縮和微調大型預訓練模型的強大解決方案。我們的分析突顯了這些結合策略在民主化使用LLMs方面的潛力，使它們更容易部署在資源受限環境中。產生的模型展現了較小的記憶體占用和更快的推論時間，為LLMs的更實用和可擴展應用鋪平了道路。模型和程式碼可在以下網址找到：https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning。

IndicMMLU-Pro：在多任務語言理解上對印度語系大型語言模型進行基準測試
IndicMMLU-Pro: Benchmarking Indic Large Language Models on Multi-Task Language Understanding

Jan 27

BySankalp KJ, Ashutosh Kumar, Laxmaan Balaji, Nikunj Kotecha, Vinija Jain, Aman Chadha, Sreyoshi Bhaduri

印度次大陸有超過 15 億人口使用的印度語言，因其豐富的文化遺產、語言多樣性和複雜結構，為自然語言處理（NLP）研究帶來獨特的挑戰和機遇。IndicMMLU-Pro 是一個全面的基準，旨在評估大型語言模型（LLMs）在印度語言上的表現，建立在 MMLU Pro（大規模多任務語言理解）框架之上。覆蓋主要語言如印地語、孟加拉語、古吉拉特語、馬拉地語、坎納達語、旁遮普語、泰米爾語、泰盧固語和烏爾都語，我們的基準解決了印度次大陸語言多樣性帶來的獨特挑戰和機遇。這個基準包含了語言理解、推理和生成等各種任務，精心設計以捕捉印度語言的細微差異。IndicMMLU-Pro 提供了標準化的評估框架，推動印度語言人工智慧研究的邊界，促進更準確、高效和具文化敏感性的模型的發展。本文概述了基準的設計原則、任務分類法和數據收集方法，並呈現了來自最先進多語言模型的基準結果。

TAID：暫時適應性插值蒸餾，用於語言模型中的高效知識轉移
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models

Jan 28

ByMakoto Shing, Kou Misaki, Han Bao, Sho Yokoi, Takuya Akiba

因果語言模型展現了卓越的能力，但其龐大的尺寸對於在資源受限環境中部署構成重大挑戰。知識蒸餾是一種廣泛使用的技術，用於將大型教師模型的知識轉移至小型學生模型，為模型壓縮提供了一種有前途的方法。一個重要的問題在於教師模型和學生模型之間存在的主要差異，即顯著的容量差距、模式平均和模式崩潰，這些在蒸餾過程中構成了障礙。為了應對這些問題，我們引入了一種新穎的知識蒸餾方法，稱為時間自適應插值蒸餾（TAID），通過一個自適應中間分佈動態地插值學生和教師分佈，逐漸從學生的初始分佈向教師的分佈過渡。我們提供了一個理論分析，證明了TAID防止模式崩潰的能力，並在實驗中展示了其在解決容量差距、平衡模式平均和模式崩潰方面的有效性。我們的全面實驗證明了TAID在各種模型尺寸和架構上的優越性能，無論是在指導調整還是預訓練情境下。此外，我們通過開發兩個最新的緊湊基礎模型TAID-LLM-1.5B用於語言任務和TAID-VLM-2B用於視覺語言任務，展示了TAID的實際影響。這些結果表明了TAID在創建高性能和高效模型方面的有效性，推動了更易接觸的人工智能技術的發展。

道德故事：一個用於評估道德對齊的法語數據集
Histoires Morales: A French Dataset for Assessing Moral Alignment

Jan 28

ByThibaud Leteno, Irina Proskurina, Antoine Gourru, Julien Velcin, Charlotte Laclau, Guillaume Metzler, Christophe Gravier

將語言模型與人類價值觀對齊至關重要，尤其是隨著它們越來越融入日常生活。儘管模型通常會根據用戶偏好進行調整，確保其與現實社會情境中的道德規範和行為保持一致同樣重要。儘管在英語和中文等語言取得了顯著進展，但法語在這方面卻受到較少關注，這導致我們對LLM在這種語言中處理道德推理的方式了解不足。為彌補這一空白，我們介紹了「Histoires Morales」，這是一個源自道德故事的法語數據集，通過翻譯創建，並在母語人士的協助下進行了後續精煉，以確保語法準確性和適應法國文化背景。我們還依賴數據集中的道德價值標註，以確保其與法國規範保持一致。Histoires Morales涵蓋了各種社會情境，包括小費支付習慣的差異、關係中的誠實表達以及對待動物的責任。為促進未來研究，我們還對多語言模型在法語和英語數據上的對齊以及對齊的穩健性進行了初步實驗。我們發現，儘管LLM通常默認與人類道德規範保持一致，但它們很容易受到用戶偏好優化的影響，無論是對道德還是不道德數據。

DeepFlow：規模化伺服器無伺服器大型語言模型服務
DeepFlow: Serverless Large Language Model Serving at Scale

Jan 24

ByJunhao Hu, Jiang Xu, Zhixia Liu, Yulong He, Yuetao Chen, Hao Xu, Jiang Liu, Baoquan Zhang, Shining Wan, Gengyuan Dan, Zhiyu Dong, Zhihao Ren, Jie Meng, Chao He, Changhong Liu, Tao Xie, Dayun Lin, Qin Zhang, Yue Yu, Hao Feng, Xusheng Chen, Yizhou Shan

本文介紹了DeepFlow，一個可擴展且無伺服器的人工智慧平台，旨在有效地在雲環境中大規模提供大型語言模型（LLMs）服務。DeepFlow通過四個主要設計組件解決了資源分配、服務效率和冷啟動延遲等關鍵挑戰。首先，它使用一種簡單的無伺服器抽象，稱為請求-任務-任務模型，有助於管理人工智慧工作負載，包括訓練後和模型服務任務。其次，它通過採用微內核設計、以NPU為中心的執行和基於SPMD的并行性，構建了一個內部服務引擎FlowServe，以優化LLM服務。該系統還包括針對PD分離和PD共置配置量身定制的新型調度策略。通過像預熱Pod、DRAM預加載和NPU分叉等優化，DeepFlow可以在幾秒內擴展到64個實例。DeepFlow已經投入生產超過一年，運行在一個大型Ascend NPU集群上，為我們的客戶提供了行業標準的API，用於微調、代理服務和模型服務。