EfficientLLM : Efficacité dans les modèles de langage à grande échelle
EfficientLLM: Efficiency in Large Language Models
May 20, 2025
Auteurs: Zhengqing Yuan, Weixiang Sun, Yixin Liu, Huichi Zhou, Rong Zhou, Yiyang Li, Zheyuan Zhang, Wei Song, Yue Huang, Haolong Jia, Keerthiram Murugesan, Yu Wang, Lifang He, Jianfeng Gao, Lichao Sun, Yanfang Ye
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont permis des avancées significatives, mais l'augmentation de leurs paramètres et de leurs fenêtres contextuelles entraîne des coûts de calcul, d'énergie et monétaires prohibitifs. Nous présentons EfficientLLM, un nouveau benchmark et la première étude empirique complète évaluant les techniques d'efficacité pour les LLMs à grande échelle. Menée sur un cluster de classe production (48xGH200, 8xH200 GPU), notre étude explore systématiquement trois axes clés : (1) le pré-entraînement architectural (variantes d'attention efficaces : MQA, GQA, MLA, NSA ; MoE épars), (2) le fine-tuning (méthodes paramétriquement efficaces : LoRA, RSLoRA, DoRA), et (3) l'inférence (méthodes de quantification : int4, float16). Nous définissons six métriques fines (Utilisation de la mémoire, Utilisation du calcul, Latence, Débit, Consommation d'énergie, Taux de compression) pour capturer la saturation matérielle, l'équilibre latence-débit et le coût carbone. En évaluant plus de 100 paires modèle-technique (0,5B-72B paramètres), nous tirons trois conclusions principales : (i) L'efficacité implique des compromis quantifiables : aucune méthode n'est universellement optimale ; par exemple, MoE réduit les FLOPs et améliore la précision mais augmente la VRAM de 40 %, tandis que la quantification int4 réduit la mémoire/l'énergie jusqu'à 3,9x pour une baisse de précision de 3-5 %. (ii) Les optima dépendent de la tâche et de l'échelle : MQA offre les meilleurs compromis mémoire-latence pour les appareils contraints, MLA atteint la perplexité la plus basse pour les tâches critiques en qualité, et RSLoRA dépasse l'efficacité de LoRA uniquement au-delà de 14B paramètres. (iii) Les techniques se généralisent à travers les modalités : nous étendons les évaluations aux grands modèles de vision (Stable Diffusion 3.5, Wan 2.1) et aux modèles vision-langage (Qwen2.5-VL), confirmant une transférabilité efficace. En ouvrant les jeux de données, les pipelines d'évaluation et les classements, EfficientLLM fournit des orientations essentielles pour les chercheurs et ingénieurs naviguant dans le paysage efficacité-performance des modèles de base de nouvelle génération.
English
Large Language Models (LLMs) have driven significant progress, yet their
growing parameter counts and context windows incur prohibitive compute, energy,
and monetary costs. We introduce EfficientLLM, a novel benchmark and the first
comprehensive empirical study evaluating efficiency techniques for LLMs at
scale. Conducted on a production-class cluster (48xGH200, 8xH200 GPUs), our
study systematically explores three key axes: (1) architecture pretraining
(efficient attention variants: MQA, GQA, MLA, NSA; sparse Mixture-of-Experts
(MoE)), (2) fine-tuning (parameter-efficient methods: LoRA, RSLoRA, DoRA), and
(3) inference (quantization methods: int4, float16). We define six fine-grained
metrics (Memory Utilization, Compute Utilization, Latency, Throughput, Energy
Consumption, Compression Rate) to capture hardware saturation,
latency-throughput balance, and carbon cost. Evaluating over 100
model-technique pairs (0.5B-72B parameters), we derive three core insights: (i)
Efficiency involves quantifiable trade-offs: no single method is universally
optimal; e.g., MoE reduces FLOPs and improves accuracy but increases VRAM by
40%, while int4 quantization cuts memory/energy by up to 3.9x at a 3-5%
accuracy drop. (ii) Optima are task- and scale-dependent: MQA offers optimal
memory-latency trade-offs for constrained devices, MLA achieves lowest
perplexity for quality-critical tasks, and RSLoRA surpasses LoRA efficiency
only beyond 14B parameters. (iii) Techniques generalize across modalities: we
extend evaluations to Large Vision Models (Stable Diffusion 3.5, Wan 2.1) and
Vision-Language Models (Qwen2.5-VL), confirming effective transferability. By
open-sourcing datasets, evaluation pipelines, and leaderboards, EfficientLLM
provides essential guidance for researchers and engineers navigating the
efficiency-performance landscape of next-generation foundation models.Summary
AI-Generated Summary