EfficientLLM: Efficiëntie in Grote Taalmodellen
EfficientLLM: Efficiency in Large Language Models
May 20, 2025
Auteurs: Zhengqing Yuan, Weixiang Sun, Yixin Liu, Huichi Zhou, Rong Zhou, Yiyang Li, Zheyuan Zhang, Wei Song, Yue Huang, Haolong Jia, Keerthiram Murugesan, Yu Wang, Lifang He, Jianfeng Gao, Lichao Sun, Yanfang Ye
cs.AI
Samenvatting
Large Language Models (LLMs) hebben aanzienlijke vooruitgang geboekt, maar hun groeiende aantal parameters en contextvensters brengen onhoudbare reken-, energie- en monetaire kosten met zich mee. Wij introduceren EfficientLLM, een nieuwe benchmark en de eerste uitgebreide empirische studie die efficiëntietechnieken voor LLMs op grote schaal evalueert. Uitgevoerd op een productieklasse cluster (48xGH200, 8xH200 GPU's), verkent onze studie systematisch drie belangrijke assen: (1) architectuurpretraining (efficiënte aandachtvarianten: MQA, GQA, MLA, NSA; sparse Mixture-of-Experts (MoE)), (2) fine-tuning (parameter-efficiënte methoden: LoRA, RSLoRA, DoRA), en (3) inferentie (kwantiseringsmethoden: int4, float16). We definiëren zes fijnmazige metrieken (Geheugengebruik, Rekengebruik, Latentie, Doorvoer, Energieverbruik, Compressieratio) om hardwareverzadiging, latentie-doorvoerbalans en koolstofkosten vast te leggen. Door meer dan 100 model-techniekparen (0,5B-72B parameters) te evalueren, leiden we drie kerninzichten af: (i) Efficiëntie houdt kwantificeerbare afwegingen in: geen enkele methode is universeel optimaal; bijvoorbeeld, MoE vermindert FLOPs en verbetert de nauwkeurigheid maar verhoogt het VRAM met 40%, terwijl int4-kwantisering het geheugen/energieverbruik tot 3,9x vermindert bij een nauwkeurigheidsverlies van 3-5%. (ii) Optima zijn taak- en schaalafhankelijk: MQA biedt optimale geheugen-latentieafwegingen voor beperkte apparaten, MLA bereikt de laagste perplexiteit voor kwaliteitskritieke taken, en RSLoRA overtreft de efficiëntie van LoRA alleen bij meer dan 14B parameters. (iii) Technieken generaliseren over modaliteiten: we breiden de evaluaties uit naar Large Vision Models (Stable Diffusion 3.5, Wan 2.1) en Vision-Language Models (Qwen2.5-VL), wat de effectieve overdraagbaarheid bevestigt. Door datasets, evaluatiepijplijnen en leaderboards openbaar te maken, biedt EfficientLLM essentiële richtlijnen voor onderzoekers en ingenieurs die de efficiëntie-prestatielandschap van next-generation foundation models navigeren.
English
Large Language Models (LLMs) have driven significant progress, yet their
growing parameter counts and context windows incur prohibitive compute, energy,
and monetary costs. We introduce EfficientLLM, a novel benchmark and the first
comprehensive empirical study evaluating efficiency techniques for LLMs at
scale. Conducted on a production-class cluster (48xGH200, 8xH200 GPUs), our
study systematically explores three key axes: (1) architecture pretraining
(efficient attention variants: MQA, GQA, MLA, NSA; sparse Mixture-of-Experts
(MoE)), (2) fine-tuning (parameter-efficient methods: LoRA, RSLoRA, DoRA), and
(3) inference (quantization methods: int4, float16). We define six fine-grained
metrics (Memory Utilization, Compute Utilization, Latency, Throughput, Energy
Consumption, Compression Rate) to capture hardware saturation,
latency-throughput balance, and carbon cost. Evaluating over 100
model-technique pairs (0.5B-72B parameters), we derive three core insights: (i)
Efficiency involves quantifiable trade-offs: no single method is universally
optimal; e.g., MoE reduces FLOPs and improves accuracy but increases VRAM by
40%, while int4 quantization cuts memory/energy by up to 3.9x at a 3-5%
accuracy drop. (ii) Optima are task- and scale-dependent: MQA offers optimal
memory-latency trade-offs for constrained devices, MLA achieves lowest
perplexity for quality-critical tasks, and RSLoRA surpasses LoRA efficiency
only beyond 14B parameters. (iii) Techniques generalize across modalities: we
extend evaluations to Large Vision Models (Stable Diffusion 3.5, Wan 2.1) and
Vision-Language Models (Qwen2.5-VL), confirming effective transferability. By
open-sourcing datasets, evaluation pipelines, and leaderboards, EfficientLLM
provides essential guidance for researchers and engineers navigating the
efficiency-performance landscape of next-generation foundation models.Summary
AI-Generated Summary