EfficientLLM: 大規模言語モデルにおける効率性
EfficientLLM: Efficiency in Large Language Models
May 20, 2025
著者: Zhengqing Yuan, Weixiang Sun, Yixin Liu, Huichi Zhou, Rong Zhou, Yiyang Li, Zheyuan Zhang, Wei Song, Yue Huang, Haolong Jia, Keerthiram Murugesan, Yu Wang, Lifang He, Jianfeng Gao, Lichao Sun, Yanfang Ye
cs.AI
要旨
大規模言語モデル(LLMs)は大きな進歩をもたらしてきたが、パラメータ数とコンテキストウィンドウの増大に伴い、計算コスト、エネルギー消費、および金銭的コストが膨大になっている。本論文では、EfficientLLMを紹介する。これは、LLMの効率化技術を大規模に評価する初の包括的なベンチマークおよび実証研究である。生産クラスのクラスタ(48xGH200、8xH200 GPU)で実施された本研究では、以下の3つの主要な軸を体系的に探求している:(1) アーキテクチャの事前学習(効率的な注意機構のバリエーション:MQA、GQA、MLA、NSA;スパースなMixture-of-Experts(MoE))、(2) ファインチューニング(パラメータ効率的手法:LoRA、RSLoRA、DoRA)、(3) 推論(量子化手法:int4、float16)。我々は、ハードウェアの飽和度、レイテンシとスループットのバランス、および炭素コストを捉えるために、6つの細分化されたメトリクス(メモリ利用率、計算利用率、レイテンシ、スループット、エネルギー消費、圧縮率)を定義した。0.5Bから72Bパラメータまでの100以上のモデルと技術の組み合わせを評価し、以下の3つの核心的な洞察を得た:(i) 効率化には定量化可能なトレードオフが存在する:単一の手法が普遍的に最適であることはない。例えば、MoEはFLOPsを削減し精度を向上させるが、VRAMを40%増加させる。一方、int4量子化はメモリとエネルギーを最大3.9倍削減するが、精度は3-5%低下する。(ii) 最適解はタスクとスケールに依存する:MQAは制約のあるデバイスにおいてメモリとレイテンシの最適なトレードオフを提供し、MLAは品質が重要なタスクにおいて最低のパープレキシティを達成し、RSLoRAは14Bパラメータを超える場合にのみLoRAの効率を上回る。(iii) 技術はモダリティを超えて一般化する:我々は評価を大規模視覚モデル(Stable Diffusion 3.5、Wan 2.1)および視覚言語モデル(Qwen2.5-VL)に拡張し、効果的な転移性を確認した。データセット、評価パイプライン、およびリーダーボードをオープンソース化することで、EfficientLLMは次世代の基盤モデルの効率と性能のバランスを探る研究者やエンジニアにとって不可欠なガイダンスを提供する。
English
Large Language Models (LLMs) have driven significant progress, yet their
growing parameter counts and context windows incur prohibitive compute, energy,
and monetary costs. We introduce EfficientLLM, a novel benchmark and the first
comprehensive empirical study evaluating efficiency techniques for LLMs at
scale. Conducted on a production-class cluster (48xGH200, 8xH200 GPUs), our
study systematically explores three key axes: (1) architecture pretraining
(efficient attention variants: MQA, GQA, MLA, NSA; sparse Mixture-of-Experts
(MoE)), (2) fine-tuning (parameter-efficient methods: LoRA, RSLoRA, DoRA), and
(3) inference (quantization methods: int4, float16). We define six fine-grained
metrics (Memory Utilization, Compute Utilization, Latency, Throughput, Energy
Consumption, Compression Rate) to capture hardware saturation,
latency-throughput balance, and carbon cost. Evaluating over 100
model-technique pairs (0.5B-72B parameters), we derive three core insights: (i)
Efficiency involves quantifiable trade-offs: no single method is universally
optimal; e.g., MoE reduces FLOPs and improves accuracy but increases VRAM by
40%, while int4 quantization cuts memory/energy by up to 3.9x at a 3-5%
accuracy drop. (ii) Optima are task- and scale-dependent: MQA offers optimal
memory-latency trade-offs for constrained devices, MLA achieves lowest
perplexity for quality-critical tasks, and RSLoRA surpasses LoRA efficiency
only beyond 14B parameters. (iii) Techniques generalize across modalities: we
extend evaluations to Large Vision Models (Stable Diffusion 3.5, Wan 2.1) and
Vision-Language Models (Qwen2.5-VL), confirming effective transferability. By
open-sourcing datasets, evaluation pipelines, and leaderboards, EfficientLLM
provides essential guidance for researchers and engineers navigating the
efficiency-performance landscape of next-generation foundation models.Summary
AI-Generated Summary