EfficientLLM: Eficiencia en Modelos de Lenguaje a Gran Escala
EfficientLLM: Efficiency in Large Language Models
May 20, 2025
Autores: Zhengqing Yuan, Weixiang Sun, Yixin Liu, Huichi Zhou, Rong Zhou, Yiyang Li, Zheyuan Zhang, Wei Song, Yue Huang, Haolong Jia, Keerthiram Murugesan, Yu Wang, Lifang He, Jianfeng Gao, Lichao Sun, Yanfang Ye
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han impulsado avances significativos, aunque el creciente número de parámetros y ventanas de contexto conlleva costos prohibitivos en términos de computación, energía y dinero. Presentamos EfficientLLM, un nuevo punto de referencia y el primer estudio empírico exhaustivo que evalúa técnicas de eficiencia para LLMs a gran escala. Realizado en un clúster de clase productiva (48xGH200, 8xH200 GPUs), nuestro estudio explora sistemáticamente tres ejes clave: (1) preentrenamiento de arquitectura (variantes eficientes de atención: MQA, GQA, MLA, NSA; Mixture-of-Experts (MoE) disperso), (2) ajuste fino (métodos eficientes en parámetros: LoRA, RSLoRA, DoRA) y (3) inferencia (métodos de cuantización: int4, float16). Definimos seis métricas detalladas (Utilización de Memoria, Utilización de Computación, Latencia, Rendimiento, Consumo de Energía, Tasa de Compresión) para capturar la saturación del hardware, el equilibrio entre latencia y rendimiento, y el costo de carbono. Evaluando más de 100 pares modelo-técnica (0.5B-72B parámetros), derivamos tres conclusiones principales: (i) La eficiencia implica compensaciones cuantificables: ningún método es universalmente óptimo; por ejemplo, MoE reduce los FLOPs y mejora la precisión, pero aumenta la VRAM en un 40%, mientras que la cuantización int4 reduce la memoria/energía hasta 3.9x con una caída de precisión del 3-5%. (ii) Los óptimos dependen de la tarea y la escala: MQA ofrece las mejores compensaciones entre memoria y latencia para dispositivos limitados, MLA logra la menor perplejidad en tareas críticas de calidad, y RSLoRA supera la eficiencia de LoRA solo más allá de los 14B parámetros. (iii) Las técnicas se generalizan entre modalidades: extendemos las evaluaciones a Modelos de Visión de Gran Escala (Stable Diffusion 3.5, Wan 2.1) y Modelos de Visión-Lenguaje (Qwen2.5-VL), confirmando una transferibilidad efectiva. Al liberar conjuntos de datos, pipelines de evaluación y tablas de clasificación, EfficientLLM proporciona una guía esencial para investigadores e ingenieros que navegan por el panorama de eficiencia-rendimiento de los modelos fundacionales de próxima generación.
English
Large Language Models (LLMs) have driven significant progress, yet their
growing parameter counts and context windows incur prohibitive compute, energy,
and monetary costs. We introduce EfficientLLM, a novel benchmark and the first
comprehensive empirical study evaluating efficiency techniques for LLMs at
scale. Conducted on a production-class cluster (48xGH200, 8xH200 GPUs), our
study systematically explores three key axes: (1) architecture pretraining
(efficient attention variants: MQA, GQA, MLA, NSA; sparse Mixture-of-Experts
(MoE)), (2) fine-tuning (parameter-efficient methods: LoRA, RSLoRA, DoRA), and
(3) inference (quantization methods: int4, float16). We define six fine-grained
metrics (Memory Utilization, Compute Utilization, Latency, Throughput, Energy
Consumption, Compression Rate) to capture hardware saturation,
latency-throughput balance, and carbon cost. Evaluating over 100
model-technique pairs (0.5B-72B parameters), we derive three core insights: (i)
Efficiency involves quantifiable trade-offs: no single method is universally
optimal; e.g., MoE reduces FLOPs and improves accuracy but increases VRAM by
40%, while int4 quantization cuts memory/energy by up to 3.9x at a 3-5%
accuracy drop. (ii) Optima are task- and scale-dependent: MQA offers optimal
memory-latency trade-offs for constrained devices, MLA achieves lowest
perplexity for quality-critical tasks, and RSLoRA surpasses LoRA efficiency
only beyond 14B parameters. (iii) Techniques generalize across modalities: we
extend evaluations to Large Vision Models (Stable Diffusion 3.5, Wan 2.1) and
Vision-Language Models (Qwen2.5-VL), confirming effective transferability. By
open-sourcing datasets, evaluation pipelines, and leaderboards, EfficientLLM
provides essential guidance for researchers and engineers navigating the
efficiency-performance landscape of next-generation foundation models.Summary
AI-Generated Summary