EfficientLLM: Эффективность в больших языковых моделях
EfficientLLM: Efficiency in Large Language Models
May 20, 2025
Авторы: Zhengqing Yuan, Weixiang Sun, Yixin Liu, Huichi Zhou, Rong Zhou, Yiyang Li, Zheyuan Zhang, Wei Song, Yue Huang, Haolong Jia, Keerthiram Murugesan, Yu Wang, Lifang He, Jianfeng Gao, Lichao Sun, Yanfang Ye
cs.AI
Аннотация
Крупные языковые модели (LLM) способствовали значительному прогрессу, однако их растущее количество параметров и размеры контекстных окон приводят к непомерным затратам на вычисления, энергию и финансы. Мы представляем EfficientLLM — новый эталонный тест и первое всестороннее эмпирическое исследование, оценивающее методы повышения эффективности LLM в масштабе. Проведенное на производственном кластере (48xGH200, 8xH200 GPU), наше исследование систематически исследует три ключевых направления: (1) предварительное обучение архитектуры (эффективные варианты внимания: MQA, GQA, MLA, NSA; разреженные смеси экспертов (MoE)), (2) тонкая настройка (методы с эффективным использованием параметров: LoRA, RSLoRA, DoRA) и (3) вывод (методы квантования: int4, float16). Мы определяем шесть детализированных метрик (Использование памяти, Использование вычислений, Задержка, Пропускная способность, Потребление энергии, Степень сжатия) для оценки насыщения аппаратного обеспечения, баланса задержки и пропускной способности, а также углеродного следа. Оценив более 100 пар модель-метод (0.5B-72B параметров), мы выявили три ключевых вывода: (i) Эффективность предполагает измеримые компромиссы: ни один метод не является универсально оптимальным; например, MoE снижает количество операций с плавающей запятой (FLOPs) и повышает точность, но увеличивает использование видеопамяти (VRAM) на 40%, тогда как квантование int4 сокращает использование памяти и энергии до 3.9 раз при снижении точности на 3-5%. (ii) Оптимальные решения зависят от задачи и масштаба: MQA предлагает наилучший компромисс между памятью и задержкой для устройств с ограниченными ресурсами, MLA достигает наименьшей перплексии для задач, критичных к качеству, а RSLoRA превосходит LoRA по эффективности только при более чем 14B параметров. (iii) Методы обобщаются для различных модальностей: мы расширили оценки на крупные модели для обработки изображений (Stable Diffusion 3.5, Wan 2.1) и модели, объединяющие зрение и язык (Qwen2.5-VL), подтвердив эффективную переносимость. Открывая доступ к наборам данных, конвейерам оценки и рейтингам, EfficientLLM предоставляет важные рекомендации для исследователей и инженеров, работающих над балансом эффективности и производительности для моделей следующего поколения.
English
Large Language Models (LLMs) have driven significant progress, yet their
growing parameter counts and context windows incur prohibitive compute, energy,
and monetary costs. We introduce EfficientLLM, a novel benchmark and the first
comprehensive empirical study evaluating efficiency techniques for LLMs at
scale. Conducted on a production-class cluster (48xGH200, 8xH200 GPUs), our
study systematically explores three key axes: (1) architecture pretraining
(efficient attention variants: MQA, GQA, MLA, NSA; sparse Mixture-of-Experts
(MoE)), (2) fine-tuning (parameter-efficient methods: LoRA, RSLoRA, DoRA), and
(3) inference (quantization methods: int4, float16). We define six fine-grained
metrics (Memory Utilization, Compute Utilization, Latency, Throughput, Energy
Consumption, Compression Rate) to capture hardware saturation,
latency-throughput balance, and carbon cost. Evaluating over 100
model-technique pairs (0.5B-72B parameters), we derive three core insights: (i)
Efficiency involves quantifiable trade-offs: no single method is universally
optimal; e.g., MoE reduces FLOPs and improves accuracy but increases VRAM by
40%, while int4 quantization cuts memory/energy by up to 3.9x at a 3-5%
accuracy drop. (ii) Optima are task- and scale-dependent: MQA offers optimal
memory-latency trade-offs for constrained devices, MLA achieves lowest
perplexity for quality-critical tasks, and RSLoRA surpasses LoRA efficiency
only beyond 14B parameters. (iii) Techniques generalize across modalities: we
extend evaluations to Large Vision Models (Stable Diffusion 3.5, Wan 2.1) and
Vision-Language Models (Qwen2.5-VL), confirming effective transferability. By
open-sourcing datasets, evaluation pipelines, and leaderboards, EfficientLLM
provides essential guidance for researchers and engineers navigating the
efficiency-performance landscape of next-generation foundation models.Summary
AI-Generated Summary