효율적인 대형 언어 모델: EfficientLLM
EfficientLLM: Efficiency in Large Language Models
May 20, 2025
저자: Zhengqing Yuan, Weixiang Sun, Yixin Liu, Huichi Zhou, Rong Zhou, Yiyang Li, Zheyuan Zhang, Wei Song, Yue Huang, Haolong Jia, Keerthiram Murugesan, Yu Wang, Lifang He, Jianfeng Gao, Lichao Sun, Yanfang Ye
cs.AI
초록
대형 언어 모델(LLMs)은 상당한 진전을 이끌었지만, 점점 증가하는 파라미터 수와 컨텍스트 윈도우는 엄청난 컴퓨팅 비용, 에너지 비용, 그리고 금전적 비용을 초래하고 있다. 본 연구에서는 EfficientLLM이라는 새로운 벤치마크와 대규모 LLM을 위한 효율성 기술을 평가한 첫 번째 포괄적인 실증 연구를 소개한다. 프로덕션급 클러스터(48xGH200, 8xH200 GPU)에서 수행된 이 연구는 세 가지 주요 축을 체계적으로 탐구한다: (1) 아키텍처 사전 학습(효율적인 어텐션 변형: MQA, GQA, MLA, NSA; 희소 Mixture-of-Experts(MoE)), (2) 미세 조정(파라미터 효율적 방법: LoRA, RSLoRA, DoRA), 그리고 (3) 추론(양자화 방법: int4, float16). 우리는 하드웨어 포화도, 지연-처리량 균형, 그리고 탄소 비용을 포착하기 위해 여섯 가지 세분화된 지표(메모리 활용률, 컴퓨팅 활용률, 지연 시간, 처리량, 에너지 소비, 압축률)를 정의했다. 100개 이상의 모델-기술 쌍(0.5B-72B 파라미터)을 평가하여 세 가지 핵심 통찰을 도출했다: (i) 효율성은 정량적인 트레이드오프를 수반한다: 단일 방법이 보편적으로 최적이 아니다; 예를 들어, MoE는 FLOPs를 줄이고 정확도를 향상시키지만 VRAM을 40% 증가시키며, int4 양자화는 메모리/에너지를 최대 3.9배 절감하지만 정확도가 3-5% 하락한다. (ii) 최적은 작업과 규모에 따라 다르다: MQA는 제한된 장치에서 최적의 메모리-지연 트레이드오프를 제공하며, MLA는 품질이 중요한 작업에서 가장 낮은 perplexity를 달성하고, RSLoRA는 14B 파라미터를 초과하는 경우에만 LoRA의 효율성을 능가한다. (iii) 기술은 다양한 모달리티에 걸쳐 일반화된다: 우리는 대형 비전 모델(Stable Diffusion 3.5, Wan 2.1)과 비전-언어 모델(Qwen2.5-VL)로 평가를 확장하여 효과적인 전이 가능성을 확인했다. 데이터셋, 평가 파이프라인, 그리고 리더보드를 오픈소스로 공개함으로써, EfficientLLM은 차세대 기반 모델의 효율성-성능 지형을 탐색하는 연구자와 엔지니어에게 필수적인 지침을 제공한다.
English
Large Language Models (LLMs) have driven significant progress, yet their
growing parameter counts and context windows incur prohibitive compute, energy,
and monetary costs. We introduce EfficientLLM, a novel benchmark and the first
comprehensive empirical study evaluating efficiency techniques for LLMs at
scale. Conducted on a production-class cluster (48xGH200, 8xH200 GPUs), our
study systematically explores three key axes: (1) architecture pretraining
(efficient attention variants: MQA, GQA, MLA, NSA; sparse Mixture-of-Experts
(MoE)), (2) fine-tuning (parameter-efficient methods: LoRA, RSLoRA, DoRA), and
(3) inference (quantization methods: int4, float16). We define six fine-grained
metrics (Memory Utilization, Compute Utilization, Latency, Throughput, Energy
Consumption, Compression Rate) to capture hardware saturation,
latency-throughput balance, and carbon cost. Evaluating over 100
model-technique pairs (0.5B-72B parameters), we derive three core insights: (i)
Efficiency involves quantifiable trade-offs: no single method is universally
optimal; e.g., MoE reduces FLOPs and improves accuracy but increases VRAM by
40%, while int4 quantization cuts memory/energy by up to 3.9x at a 3-5%
accuracy drop. (ii) Optima are task- and scale-dependent: MQA offers optimal
memory-latency trade-offs for constrained devices, MLA achieves lowest
perplexity for quality-critical tasks, and RSLoRA surpasses LoRA efficiency
only beyond 14B parameters. (iii) Techniques generalize across modalities: we
extend evaluations to Large Vision Models (Stable Diffusion 3.5, Wan 2.1) and
Vision-Language Models (Qwen2.5-VL), confirming effective transferability. By
open-sourcing datasets, evaluation pipelines, and leaderboards, EfficientLLM
provides essential guidance for researchers and engineers navigating the
efficiency-performance landscape of next-generation foundation models.Summary
AI-Generated Summary