ChatPaper.aiChatPaper

スケーリング則とモデルアーキテクチャの融合:推論効率の高い大規模言語モデルを目指して

Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs

October 21, 2025
著者: Song Bian, Tao Yu, Shivaram Venkataraman, Youngsuk Park
cs.AI

要旨

パラメータ数と訓練データ規模の拡大は、大規模言語モデル(LLM)の性能向上において有効な戦略であることが実証されている。しかし、これらのモデルが強力化し広く展開されるにつれ、推論コストが喫緊の課題となっている。重要性にもかかわらず、モデル精度と推論効率のトレードオフ関係は十分に解明されていない。本研究では、隠れ層サイズ、MLPとAttention間のパラメータ配分(MLP対Attention比率)、グループ化クエリ注意(GQA)といった主要なアーキテクチャ要因が、推論コストと精度の両方に与える影響を検証する。我々は、Chinchillaフレームワークにアーキテクチャ情報を付加した条件付きスケーリング則と、推論効率と精度を両立するアーキテクチャを特定するための探索フレームワークを提案する。本手法を検証するため、8000万から30億パラメータ、80億から1000億訓練トークンにわたる200以上のモデルを学習し、提案した条件付きスケーリング則を適合させた。その結果、条件付きスケーリング則が最適なアーキテクチャ選択を確実に予測すること、および得られたモデルが既存のオープンソースベースラインを凌駕することを示す。同一の訓練予算条件下では、最適化されたアーキテクチャはLLaMA-3.2と比較して最大2.1%の精度向上と42%の推論スループット向上を達成した。
English
Scaling the number of parameters and the size of training data has proven to be an effective strategy for improving large language model (LLM) performance. Yet, as these models grow increasingly powerful and widely deployed, the cost of inference has become a pressing concern. Despite its importance, the trade-off between model accuracy and inference efficiency remains underexplored. In this work, we examine how key architectural factors, hidden size, the allocation of parameters between MLP and attention (mlp-to-attention ratio), and grouped-query attention (GQA), influence both inference cost and accuracy. We introduce a conditional scaling law that augments the Chinchilla framework with architectural information, along with a search framework for identifying architectures that are simultaneously inference-efficient and accurate. To validate our approach, we train more than 200 models spanning 80M to 3B parameters and 8B to 100B training tokens, and fit the proposed conditional scaling law. Our results show that the conditional scaling law reliably predicts optimal architectural choices and that the resulting models outperform existing open-source baselines. Under the same training budget, optimized architectures achieve up to 2.1% higher accuracy and 42% greater inference throughput compared to LLaMA-3.2.
PDF62December 2, 2025