EfficientLLM: Eficiência em Modelos de Linguagem de Grande Escala
EfficientLLM: Efficiency in Large Language Models
May 20, 2025
Autores: Zhengqing Yuan, Weixiang Sun, Yixin Liu, Huichi Zhou, Rong Zhou, Yiyang Li, Zheyuan Zhang, Wei Song, Yue Huang, Haolong Jia, Keerthiram Murugesan, Yu Wang, Lifang He, Jianfeng Gao, Lichao Sun, Yanfang Ye
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) têm impulsionado avanços significativos, mas o crescente número de parâmetros e janelas de contexto acarreta custos proibitivos de computação, energia e monetários. Apresentamos o EfficientLLM, um novo benchmark e o primeiro estudo empírico abrangente que avalia técnicas de eficiência para LLMs em escala. Realizado em um cluster de classe de produção (48xGH200, 8xH200 GPUs), nosso estudo explora sistematicamente três eixos principais: (1) pré-treinamento de arquitetura (variantes eficientes de atenção: MQA, GQA, MLA, NSA; Mistura de Especialistas (MoE) esparsa), (2) ajuste fino (métodos eficientes em parâmetros: LoRA, RSLoRA, DoRA) e (3) inferência (métodos de quantização: int4, float16). Definimos seis métricas detalhadas (Utilização de Memória, Utilização de Computação, Latência, Taxa de Transferência, Consumo de Energia, Taxa de Compressão) para capturar saturação de hardware, equilíbrio latência-taxa de transferência e custo de carbono. Avaliando mais de 100 pares modelo-técnica (0,5B-72B parâmetros), derivamos três insights principais: (i) Eficiência envolve compensações quantificáveis: nenhum método é universalmente ótimo; por exemplo, MoE reduz FLOPs e melhora a precisão, mas aumenta a VRAM em 40%, enquanto a quantização int4 reduz memória/energia em até 3,9x com uma queda de 3-5% na precisão. (ii) Os ótimos dependem da tarefa e da escala: MQA oferece as melhores compensações memória-latência para dispositivos restritos, MLA alcança a menor perplexidade para tarefas críticas de qualidade, e RSLoRA supera a eficiência do LoRA apenas além de 14B parâmetros. (iii) As técnicas generalizam entre modalidades: estendemos as avaliações para Modelos de Visão de Grande Escala (Stable Diffusion 3.5, Wan 2.1) e Modelos de Visão-Linguagem (Qwen2.5-VL), confirmando a transferibilidade eficaz. Ao disponibilizar conjuntos de dados, pipelines de avaliação e rankings em código aberto, o EfficientLLM fornece orientação essencial para pesquisadores e engenheiros que navegam no cenário eficiência-desempenho dos modelos de base da próxima geração.
English
Large Language Models (LLMs) have driven significant progress, yet their
growing parameter counts and context windows incur prohibitive compute, energy,
and monetary costs. We introduce EfficientLLM, a novel benchmark and the first
comprehensive empirical study evaluating efficiency techniques for LLMs at
scale. Conducted on a production-class cluster (48xGH200, 8xH200 GPUs), our
study systematically explores three key axes: (1) architecture pretraining
(efficient attention variants: MQA, GQA, MLA, NSA; sparse Mixture-of-Experts
(MoE)), (2) fine-tuning (parameter-efficient methods: LoRA, RSLoRA, DoRA), and
(3) inference (quantization methods: int4, float16). We define six fine-grained
metrics (Memory Utilization, Compute Utilization, Latency, Throughput, Energy
Consumption, Compression Rate) to capture hardware saturation,
latency-throughput balance, and carbon cost. Evaluating over 100
model-technique pairs (0.5B-72B parameters), we derive three core insights: (i)
Efficiency involves quantifiable trade-offs: no single method is universally
optimal; e.g., MoE reduces FLOPs and improves accuracy but increases VRAM by
40%, while int4 quantization cuts memory/energy by up to 3.9x at a 3-5%
accuracy drop. (ii) Optima are task- and scale-dependent: MQA offers optimal
memory-latency trade-offs for constrained devices, MLA achieves lowest
perplexity for quality-critical tasks, and RSLoRA surpasses LoRA efficiency
only beyond 14B parameters. (iii) Techniques generalize across modalities: we
extend evaluations to Large Vision Models (Stable Diffusion 3.5, Wan 2.1) and
Vision-Language Models (Qwen2.5-VL), confirming effective transferability. By
open-sourcing datasets, evaluation pipelines, and leaderboards, EfficientLLM
provides essential guidance for researchers and engineers navigating the
efficiency-performance landscape of next-generation foundation models.