EfficientLLM: Effizienz in großen Sprachmodellen
EfficientLLM: Efficiency in Large Language Models
May 20, 2025
Autoren: Zhengqing Yuan, Weixiang Sun, Yixin Liu, Huichi Zhou, Rong Zhou, Yiyang Li, Zheyuan Zhang, Wei Song, Yue Huang, Haolong Jia, Keerthiram Murugesan, Yu Wang, Lifang He, Jianfeng Gao, Lichao Sun, Yanfang Ye
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bedeutende Fortschritte vorangetrieben, doch ihre wachsende Anzahl von Parametern und Kontextfenstern verursachen prohibitive Rechen-, Energie- und monetäre Kosten. Wir stellen EfficientLLM vor, einen neuartigen Benchmark und die erste umfassende empirische Studie, die Effizienztechniken für LLMs im großen Maßstab evaluiert. Durchgeführt auf einem Produktionscluster (48xGH200, 8xH200 GPUs), untersucht unsere Studie systematisch drei Schlüsselachsen: (1) Architektur-Pretraining (effiziente Aufmerksamkeitsvarianten: MQA, GQA, MLA, NSA; spärliche Mixture-of-Experts (MoE)), (2) Feinabstimmung (parameter-effiziente Methoden: LoRA, RSLoRA, DoRA) und (3) Inferenz (Quantisierungsmethoden: int4, float16). Wir definieren sechs fein abgestimmte Metriken (Speichernutzung, Rechennutzung, Latenz, Durchsatz, Energieverbrauch, Kompressionsrate), um Hardwareauslastung, Latenz-Durchsatz-Balance und Kohlenstoffkosten zu erfassen. Bei der Auswertung von über 100 Modell-Technik-Paaren (0,5B-72B Parameter) leiten wir drei Kernaussagen ab: (i) Effizienz beinhaltet quantifizierbare Kompromisse: Keine einzelne Methode ist universell optimal; z.B. reduziert MoE FLOPs und verbessert die Genauigkeit, erhöht jedoch den VRAM um 40%, während int4-Quantisierung Speicher/Energie um bis zu 3,9x bei einem Genauigkeitsverlust von 3-5% reduziert. (ii) Optima sind aufgaben- und skalenabhängig: MQA bietet optimale Speicher-Latenz-Kompromisse für eingeschränkte Geräte, MLA erreicht die niedrigste Perplexität für qualitätskritische Aufgaben, und RSLoRA übertrifft die Effizienz von LoRA erst ab 14B Parametern. (iii) Techniken generalisieren über Modalitäten hinweg: Wir erweitern die Auswertungen auf Große Vision-Modelle (Stable Diffusion 3.5, Wan 2.1) und Vision-Sprache-Modelle (Qwen2.5-VL), wodurch die effektive Übertragbarkeit bestätigt wird. Durch die Open-Source-Bereitstellung von Datensätzen, Evaluationspipelines und Leaderboards bietet EfficientLLM wesentliche Leitlinien für Forscher und Ingenieure, die sich im Effizienz-Leistungs-Spektrum der nächsten Generation von Foundation-Modellen bewegen.
English
Large Language Models (LLMs) have driven significant progress, yet their
growing parameter counts and context windows incur prohibitive compute, energy,
and monetary costs. We introduce EfficientLLM, a novel benchmark and the first
comprehensive empirical study evaluating efficiency techniques for LLMs at
scale. Conducted on a production-class cluster (48xGH200, 8xH200 GPUs), our
study systematically explores three key axes: (1) architecture pretraining
(efficient attention variants: MQA, GQA, MLA, NSA; sparse Mixture-of-Experts
(MoE)), (2) fine-tuning (parameter-efficient methods: LoRA, RSLoRA, DoRA), and
(3) inference (quantization methods: int4, float16). We define six fine-grained
metrics (Memory Utilization, Compute Utilization, Latency, Throughput, Energy
Consumption, Compression Rate) to capture hardware saturation,
latency-throughput balance, and carbon cost. Evaluating over 100
model-technique pairs (0.5B-72B parameters), we derive three core insights: (i)
Efficiency involves quantifiable trade-offs: no single method is universally
optimal; e.g., MoE reduces FLOPs and improves accuracy but increases VRAM by
40%, while int4 quantization cuts memory/energy by up to 3.9x at a 3-5%
accuracy drop. (ii) Optima are task- and scale-dependent: MQA offers optimal
memory-latency trade-offs for constrained devices, MLA achieves lowest
perplexity for quality-critical tasks, and RSLoRA surpasses LoRA efficiency
only beyond 14B parameters. (iii) Techniques generalize across modalities: we
extend evaluations to Large Vision Models (Stable Diffusion 3.5, Wan 2.1) and
Vision-Language Models (Qwen2.5-VL), confirming effective transferability. By
open-sourcing datasets, evaluation pipelines, and leaderboards, EfficientLLM
provides essential guidance for researchers and engineers navigating the
efficiency-performance landscape of next-generation foundation models.Summary
AI-Generated Summary