EfficientLLM: Efficienza nei Modelli Linguistici di Grande Dimensione
EfficientLLM: Efficiency in Large Language Models
May 20, 2025
Autori: Zhengqing Yuan, Weixiang Sun, Yixin Liu, Huichi Zhou, Rong Zhou, Yiyang Li, Zheyuan Zhang, Wei Song, Yue Huang, Haolong Jia, Keerthiram Murugesan, Yu Wang, Lifang He, Jianfeng Gao, Lichao Sun, Yanfang Ye
cs.AI
Abstract
I Large Language Models (LLMs) hanno guidato progressi significativi, ma l'aumento del numero di parametri e delle finestre contestuali comporta costi proibitivi in termini di calcolo, energia e denaro. Introduciamo EfficientLLM, un nuovo benchmark e il primo studio empirico completo che valuta le tecniche di efficienza per i LLM su larga scala. Condotto su un cluster di livello produttivo (48xGH200, 8xH200 GPU), il nostro studio esplora sistematicamente tre assi chiave: (1) pre-addestramento dell'architettura (varianti efficienti dell'attenzione: MQA, GQA, MLA, NSA; Mixture-of-Experts (MoE) sparsi), (2) fine-tuning (metodi efficienti in termini di parametri: LoRA, RSLoRA, DoRA), e (3) inferenza (metodi di quantizzazione: int4, float16). Definiamo sei metriche dettagliate (Utilizzo della Memoria, Utilizzo del Calcolo, Latenza, Throughput, Consumo Energetico, Tasso di Compressione) per catturare la saturazione hardware, il bilanciamento latenza-throughput e il costo in termini di carbonio. Valutando oltre 100 coppie modello-tecnica (0,5B-72B parametri), deriviamo tre intuizioni fondamentali: (i) L'efficienza comporta compromessi quantificabili: nessun metodo è universalmente ottimale; ad esempio, MoE riduce i FLOP e migliora l'accuratezza ma aumenta la VRAM del 40%, mentre la quantizzazione int4 riduce memoria/energia fino a 3,9x con un calo di accuratezza del 3-5%. (ii) Gli ottimi dipendono dal compito e dalla scala: MQA offre i migliori compromessi memoria-latenza per dispositivi limitati, MLA raggiunge la più bassa perplessità per compiti critici in termini di qualità, e RSLoRA supera l'efficienza di LoRA solo oltre i 14B parametri. (iii) Le tecniche si generalizzano tra le modalità: estendiamo le valutazioni ai Large Vision Models (Stable Diffusion 3.5, Wan 2.1) e ai Vision-Language Models (Qwen2.5-VL), confermando una trasferibilità efficace. Rendendo open-source dataset, pipeline di valutazione e classifiche, EfficientLLM fornisce una guida essenziale per ricercatori e ingegneri che navigano nel panorama efficienza-prestazioni dei modelli di base di prossima generazione.
English
Large Language Models (LLMs) have driven significant progress, yet their
growing parameter counts and context windows incur prohibitive compute, energy,
and monetary costs. We introduce EfficientLLM, a novel benchmark and the first
comprehensive empirical study evaluating efficiency techniques for LLMs at
scale. Conducted on a production-class cluster (48xGH200, 8xH200 GPUs), our
study systematically explores three key axes: (1) architecture pretraining
(efficient attention variants: MQA, GQA, MLA, NSA; sparse Mixture-of-Experts
(MoE)), (2) fine-tuning (parameter-efficient methods: LoRA, RSLoRA, DoRA), and
(3) inference (quantization methods: int4, float16). We define six fine-grained
metrics (Memory Utilization, Compute Utilization, Latency, Throughput, Energy
Consumption, Compression Rate) to capture hardware saturation,
latency-throughput balance, and carbon cost. Evaluating over 100
model-technique pairs (0.5B-72B parameters), we derive three core insights: (i)
Efficiency involves quantifiable trade-offs: no single method is universally
optimal; e.g., MoE reduces FLOPs and improves accuracy but increases VRAM by
40%, while int4 quantization cuts memory/energy by up to 3.9x at a 3-5%
accuracy drop. (ii) Optima are task- and scale-dependent: MQA offers optimal
memory-latency trade-offs for constrained devices, MLA achieves lowest
perplexity for quality-critical tasks, and RSLoRA surpasses LoRA efficiency
only beyond 14B parameters. (iii) Techniques generalize across modalities: we
extend evaluations to Large Vision Models (Stable Diffusion 3.5, Wan 2.1) and
Vision-Language Models (Qwen2.5-VL), confirming effective transferability. By
open-sourcing datasets, evaluation pipelines, and leaderboards, EfficientLLM
provides essential guidance for researchers and engineers navigating the
efficiency-performance landscape of next-generation foundation models.