HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

10 papers found

SFTは記憶し、RLは一般化する：ファウンデーションモデルの比較研究トレーニング後
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Jan 28

ByTianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma

124

教師付きファインチューニング（SFT）と強化学習（RL）は、基盤モデルの後処理技術として広く使用されています。ただし、これらがモデルの汎化能力を向上させる役割は依然として不明です。本論文では、SFTとRLの一般化と記憶への影響の違いを研究し、テキストベースのルール変種とビジュアル変種に焦点を当てます。私たちは、算術推論カードゲームであるGeneralPointsを導入し、実世界のナビゲーション環境であるV-IRLを採用して、SFTとRLで訓練されたモデルがテキストとビジュアルの両ドメインで未知の変種にどのように一般化するかを評価します。RLは、特に結果ベースの報酬で訓練された場合、ルールベースのテキストとビジュアルの変種の両方にわたって一般化することを示します。これに対して、SFTは訓練データを記憶し、分布外シナリオでの一般化が困難です。さらなる分析から、RLがモデルの基礎となるビジュアル認識能力を向上させ、視覚ドメインでの一般化を促進することが明らかになります。RLの優れた一般化能力にもかかわらず、SFTは効果的なRLトレーニングには不可欠であることを示します。SFTはモデルの出力形式を安定させ、その後のRLがパフォーマンスを向上させることを可能にします。これらの知見は、複雑なマルチモーダルタスクで一般化可能な知識を獲得するためのRLの能力を示しています。

FP4 量子化を使用した大規模言語モデルのトレーニングの最適化
Optimizing Large Language Model Training Using FP4 Quantization

Jan 28

ByRuizhe Wang, Yeyun Gong, Xiao Liu, Guoshuai Zhao, Ziyue Yang, Baining Guo, Zhengjun Zha, Peng Cheng

大規模言語モデル（LLMs）の訓練における増大する計算要求は、より効率的な手法が必要とされています。量子化された訓練は、これらのコストを削減するために低ビットの算術演算を可能にすることで有望な解決策を提供しています。FP8精度は実現可能性を示していますが、FP4を活用することは、著しい量子化誤差と限られた表現能力のために課題となっています。本研究では、LLMs向けの初のFP4訓練フレームワークを導入し、これらの課題に対処しています。具体的には、正確な重み更新のための微分可能な量子化推定器と、活性化の崩壊を防ぐための外れ値クランプおよび補償戦略の2つの主要な革新を取り入れています。安定性を確保するために、フレームワークは混合精度訓練スキームとベクトル単位の量子化を統合しています。実験結果は、当社のFP4フレームワークがBF16およびFP8と同等の精度を達成し、最小限の劣化で、最大100Bトークンまで訓練された13BパラメータLLMsに効果的にスケーリングすることを示しています。FP4をサポートする次世代ハードウェアの登場により、当社のフレームワークは効率的な超低精度訓練の基盤を築いています。

過剰トークン化されたトランスフォーマー：一般的に語彙のスケーリングが価値がある
Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling

Jan 28

ByHongzhi Huang, Defa Zhu, Banggu Wu, Yutao Zeng, Ya Wang, Qiyang Min, Xun Zhou

トークン化は大規模言語モデル（LLMs）の基本的な要素ですが、そのモデルのスケーリングとパフォーマンスへの影響は完全には探求されていません。本論文では、入力と出力の語彙を分離して言語モデリングのパフォーマンスを向上させる革新的なフレームワークである「Over-Tokenized Transformers」を紹介します。具体的には、当該手法は入力語彙を拡大してマルチグラムトークンを活用します。広範な実験を通じて、入力語彙サイズとトレーニング損失との対数線形関係を明らかにし、モデルサイズに関わらず、より大きな入力語彙がモデルのパフォーマンスを一貫して向上させることを示しました。大規模な入力語彙を使用することで、追加コストなしに倍のサイズの基準線に匹敵するパフォーマンスを達成しました。我々の結果は、スケーリング則におけるトークン化の重要性を強調し、トークナイザー設計のための実用的な洞察を提供し、より効率的で強力なLLMsの道を開くものです。

DiffSplat: スケーラブルなガウススプラット生成のための画像拡散モデルの再利用
DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation

Jan 28

ByChenguo Lin, Panwang Pan, Bangbang Yang, Zeming Li, Yadong Mu

最近のテキストや単一の画像からの3Dコンテンツ生成の進歩は、高品質な3Dデータセットの制約や2Dマルチビュー生成からの不整合に苦しんでいます。私たちは、DiffSplatという新しい3D生成フレームワークを紹介します。このフレームワークは、大規模なテキストから画像への拡散モデルを制御することで、3Dガウススプラットを生成します。これは、従来の3D生成モデルとは異なり、Webスケールの2D事前情報を効果的に活用しつつ、統一されたモデルで3Dの一貫性を維持します。トレーニングを始めるために、軽量な再構築モデルが提案され、スケーラブルなデータセットのキュレーションのために即座にマルチビューのガウススプラットグリッドを生成します。これらのグリッドに対する通常の拡散損失とともに、任意のビュー間で3Dの整合性を促進するために3Dレンダリング損失が導入されます。画像拡散モデルとの互換性により、画像生成のための多くの技術を3D領域にシームレスに適応させることが可能です。包括的な実験により、DiffSplatがテキストおよび画像条件付き生成タスクおよびその応用において優れていることが示されます。徹底的な削減研究により、各重要な設計選択の効果を検証し、基礎メカニズムに対する洞察が提供されます。

メカニズム解釈における未解決の問題
Open Problems in Mechanistic Interpretability

Jan 27

ByLee Sharkey, Bilal Chughtai, Joshua Batson, Jack Lindsey, Jeff Wu, Lucius Bushnaq, Nicholas Goldowsky-Dill, Stefan Heimersheim, Alejandro Ortega, Joseph Bloom, Stella Biderman, Adria Garriga-Alonso, Arthur Conmy, Neel Nanda, Jessica Rumbelow, Martin Wattenberg, Nandi Schoots, Joseph Miller, Eric J. Michaud, Stephen Casper, Max Tegmark, William Saunders, David Bau, Eric Todd, Atticus Geiger, Mor Geva, Jesse Hoogland, Daniel Murfet, Tom McGrath

機械的解釈可能性は、具体的な科学的および工学的目標を達成するために、ニューラルネットワークの能力の基盤となる計算メカニズムを理解することを目指しています。この分野の進歩は、AIシステムの振る舞いに対するより大きな保証を提供し、知性の本質に関する興味深い科学的問いに光を当てることを約束します。これらの目標に向けた最近の進展にもかかわらず、多くの科学的および実用的利点を実現するためには、解決すべき多くの未解決の問題があります。私たちの方法には、より深い洞察を明らかにするために概念的および実践的な改善が必要です。具体的な目標の追求において最善の方法を見つける必要があり、この分野は私たちの仕事に影響を与え、また影響を受ける社会技術的な課題に取り組まなければなりません。この先を見据えたレビューでは、機械的解釈可能性の現在の最前線と、この分野が優先すべき未解決の問題について議論します。

低ランクアダプターがLLM圧縮のためのニューラルアーキテクチャサーチに遭遇する
Low-Rank Adapters Meet Neural Architecture Search for LLM Compression

Jan 23

ByJ. Pablo Muñoz, Jinjie Yuan, Nilesh Jain

大規模言語モデル（LLMs）の急速な拡大は、ファインチューニングや展開に必要な計算リソースに関する重要な課題を提起しています。低ランクアダプターの最近の進歩は、これらのモデルのパラメータ効率的なファインチューニング（PEFT）での効果を実証しています。この回顧的論文では、低ランク表現とニューラルアーキテクチャサーチ（NAS）技術、特にウェイト共有スーパーネットワークとのシナジー効果を包括的に検討しています。これらの手法を統合することで、大規模事前学習モデルの圧縮とファインチューニングのための堅牢なソリューションが開発されています。当社の分析は、これらの組み合わせ戦略のLLMsの使用を民主化し、リソース制約のある環境での展開をよりアクセスしやすくする潜在能力を強調しています。結果として得られるモデルは、メモリフットプリントが削減され、推論時間が短縮されており、LLMsのより実用的でスケーラブルなアプリケーションへの道を開いています。モデルとコードは以下で入手可能です：https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.

IndicMMLU-Pro: マルチタスク言語理解におけるインド系大規模言語モデルのベンチマーキング
IndicMMLU-Pro: Benchmarking Indic Large Language Models on Multi-Task Language Understanding

Jan 27

BySankalp KJ, Ashutosh Kumar, Laxmaan Balaji, Nikunj Kotecha, Vinija Jain, Aman Chadha, Sreyoshi Bhaduri

インド亜大陸で15億人以上に知られるインド諸言語は、豊かな文化遺産、言語の多様性、複雑な構造から、自然言語処理（NLP）研究において独自の課題と機会を提供しています。IndicMMLU-Proは、インド諸言語全体で大規模言語モデル（LLM）を評価するために設計された包括的なベンチマークであり、MMLU Pro（Massive Multitask Language Understanding）フレームワークを基盤としています。ヒンディー語、ベンガル語、グジャラート語、マラーティー語、カンナダ語、パンジャブ語、タミル語、テルグ語、ウルドゥー語などの主要言語をカバーし、当該ベンチマークは、インド亜大陸の言語多様性がもたらす独自の課題と機会に対処しています。このベンチマークは、インド諸言語の微妙なニュアンスを捉えるよう慎重に作成された言語理解、推論、生成の幅広いタスクを包括しています。IndicMMLU-Proは、インド諸言語AIの研究領域を推進するための標準化された評価フレームワークを提供し、より正確で効率的、かつ文化的に敏感なモデルの開発を促進します。本論文では、ベンチマークの設計原則、タスク分類、データ収集方法を概説し、最先端の多言語モデルからのベースライン結果を提示しています。

TAID: 言語モデルにおける効率的な知識転送のための時間的適応補間蒸留
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models

Jan 28

ByMakoto Shing, Kou Misaki, Han Bao, Sho Yokoi, Takuya Akiba

因果言語モデルは驚異的な能力を示していますが、そのサイズはリソースに制約のある環境での展開において重要な課題を提起しています。大規模な教師モデルから知識を小さな生徒モデルに転送するための広く使用されているテクニックである知識蒸留は、モデルの圧縮のための有望なアプローチを示しています。残る重要な問題は、教師モデルと生徒モデルの間の主な違いにあります。具体的には、大きな容量のギャップ、モードの平均化、モードの崩壊があり、これらは蒸留中に障壁となります。これらの問題に対処するために、私たちは一連の実験を行い、TAIDの優れた性能を示しています。

モラルアライメント評価のためのフランス語データセット：Histoires Morales
Histoires Morales: A French Dataset for Assessing Moral Alignment

Jan 28

ByThibaud Leteno, Irina Proskurina, Antoine Gourru, Julien Velcin, Charlotte Laclau, Guillaume Metzler, Christophe Gravier

言語モデルを人間の価値観と整合させることは重要であり、特にそれらが日常生活により組み込まれるにつれてますます重要になります。モデルはしばしばユーザーの好みに適応されますが、現実世界の社会的状況における道徳的規範や行動と整合することも同様に重要です。英語や中国語などの言語での重要な進展がある一方で、フランス語はこの分野でほとんど注目されておらず、この言語における道徳的推論の処理方法を理解するためのギャップが存在しています。このギャップを埋めるために、私たちは「Histoires Morales」というフランス語のデータセットを紹介します。このデータセットはMoral Storiesから派生し、翻訳を通じて作成され、その後、文法の正確さとフランス文化的コンテキストへの適応を保証するためにネイティブスピーカーの支援を受けて洗練されました。また、データセット内の道徳的価値観の注釈に依存して、それらがフランスの規範と整合するようにします。Histoires Moralesは、チップの支払い方法の違い、人間関係における誠実さの表現、動物に対する責任など、さまざまな社会的状況をカバーしています。将来の研究を促進するために、我々はまた、多言語モデルのフランス語と英語のデータにおける整合性やその頑健性に関する予備的実験を実施しています。LLMは一般的には人間の道徳的規範と基本的に整合していますが、道徳的および非道徳的データの両方に対するユーザーの好み最適化によって容易に影響を受けることがわかりました。

DeepFlow: スケールでのサーバーレス大規模言語モデルの提供
DeepFlow: Serverless Large Language Model Serving at Scale

Jan 24

ByJunhao Hu, Jiang Xu, Zhixia Liu, Yulong He, Yuetao Chen, Hao Xu, Jiang Liu, Baoquan Zhang, Shining Wan, Gengyuan Dan, Zhiyu Dong, Zhihao Ren, Jie Meng, Chao He, Changhong Liu, Tao Xie, Dayun Lin, Qin Zhang, Yue Yu, Hao Feng, Xusheng Chen, Yizhou Shan

本論文では、大規模言語モデル（LLM）を効率的にクラウド環境でスケーラブルに提供するために設計されたスケーラブルでサーバーレスなAIプラットフォームであるDeepFlowを紹介します。DeepFlowは、リソース割り当て、サービング効率、およびコールドスタートの待ち時間などの主要な課題に対処するために、4つの主要な設計コンポーネントを使用しています。まず、AIワークロードをポストトレーニングおよびモデルサービングタスク全体で管理するのに役立つ、シンプルなサーバーレス抽象化であるリクエスト-ジョブ-タスクモデルを使用しています。第二に、マイクロカーネルに着想を得た設計、NPU中心の実行、およびSPMDベースの並列処理を使用して、LLMのサービングを最適化するために、内部でサービングエンジンFlowServeを構築しています。システムには、PD-分離およびPD-共存構成の両方に適した新しいスケジューリングポリシーも含まれています。事前にウォームアップされたポッド、DRAMの事前読み込み、およびNPUフォークなどの最適化を行うことで、DeepFlowは数秒で64インスタンスまでスケーリングすることができます。DeepFlowは、Ascend NPUクラスタ上で運用され、お客様に対してファインチューニング、エージェントサービング、およびモデルサービングのための業界標準のAPIを提供しています。

モラルアライメント評価のためのフランス語データセット：Histoires Morales
Histoires Morales: A French Dataset for Assessing Moral Alignment

Jan 28

ByThibaud Leteno, Irina Proskurina, Antoine Gourru, Julien Velcin, Charlotte Laclau, Guillaume Metzler, Christophe Gravier