ChatPaper.aiChatPaper

스케일링 법칙과 모델 아키텍처의 만남: 추론 효율적인 LLM을 향하여

Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs

October 21, 2025
저자: Song Bian, Tao Yu, Shivaram Venkataraman, Youngsuk Park
cs.AI

초록

매개변수 수와 훈련 데이터 규모를 확장하는 것이 대규모 언어 모델(LLM) 성능 향상에 효과적인 전략임이 입증되었습니다. 그러나 이러한 모델이 점점 더 강력해지고 광범위하게 배포됨에 따라 추론 비용이 중요한 문제로 대두되고 있습니다. 그 중요성에도 불구하고, 모델 정확도와 추론 효율성 간의 상호 관계는 아직 충분히 연구되지 않았습니다. 본 연구에서는 은닉층 크기, MLP와 어텐션 간 매개변수 할당 비율(MLP-대-어텐션 비율), 그룹화된 질의 어텐션(GQA)과 같은 주요 구조적 요인들이 추론 비용과 정확도에 미치는 영향을 분석합니다. 우리는 Chinchilla 프레임워크에 구조적 정보를 추가한 조건부 스케일링 법칙과, 추론 효율성과 정확도를 동시에 만족하는 구조를 탐색하기 위한 검색 프레임워크를 제안합니다. 제안 방법의 타당성을 검증하기 위해 80M에서 3B에 이르는 매개변수와 8B에서 100B에 이르는 훈련 토큰으로 구성된 200개 이상의 모델을 훈련하고 조건부 스케일링 법칙을 적용했습니다. 그 결과, 조건부 스케일링 법칙이 최적의 구조적 선택을 안정적으로 예측하며, 이를 통해 도출된 모델이 기존 오픈소스 기준 모델들을 능가함을 확인했습니다. 동일한 훈련 예산 하에서 최적화된 구조는 LLaMA-3.2 대비 최대 2.1% 높은 정확도와 42% 더 큰 추론 처리량을 달성했습니다.
English
Scaling the number of parameters and the size of training data has proven to be an effective strategy for improving large language model (LLM) performance. Yet, as these models grow increasingly powerful and widely deployed, the cost of inference has become a pressing concern. Despite its importance, the trade-off between model accuracy and inference efficiency remains underexplored. In this work, we examine how key architectural factors, hidden size, the allocation of parameters between MLP and attention (mlp-to-attention ratio), and grouped-query attention (GQA), influence both inference cost and accuracy. We introduce a conditional scaling law that augments the Chinchilla framework with architectural information, along with a search framework for identifying architectures that are simultaneously inference-efficient and accurate. To validate our approach, we train more than 200 models spanning 80M to 3B parameters and 8B to 100B training tokens, and fit the proposed conditional scaling law. Our results show that the conditional scaling law reliably predicts optimal architectural choices and that the resulting models outperform existing open-source baselines. Under the same training budget, optimized architectures achieve up to 2.1% higher accuracy and 42% greater inference throughput compared to LLaMA-3.2.
PDF62December 2, 2025