속도는 항상 승리한다: 대규모 언어 모델을 위한 효율적인 아키텍처에 대한 연구 조사
Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
August 13, 2025
저자: Weigao Sun, Jiaxi Hu, Yucheng Zhou, Jusen Du, Disen Lan, Kexin Wang, Tong Zhu, Xiaoye Qu, Yu Zhang, Xiaoyu Mo, Daizong Liu, Yuxuan Liang, Wenliang Chen, Guoqi Li, Yu Cheng
cs.AI
초록
대규모 언어 모델(LLMs)은 언어 이해, 생성, 추론 분야에서 인상적인 성과를 보여주며, 멀티모달 모델의 능력 한계를 넓혀가고 있습니다. 현대 LLMs의 기반이 되는 트랜스포머 모델은 우수한 확장성을 갖춘 강력한 기준선을 제공합니다. 그러나 전통적인 트랜스포머 아키텍처는 상당한 계산량을 요구하며, 대규모 학습과 실제 배포에 있어 상당한 장애물로 작용합니다. 본 조사에서는 트랜스포머의 고유한 한계를 해결하고 효율성을 높이는 혁신적인 LLM 아키텍처를 체계적으로 검토합니다. 언어 모델링을 시작으로, 이 조사는 선형 및 희소 시퀀스 모델링 방법, 효율적인 전체 어텐션 변형, 희소 전문가 혼합, 위 기술들을 통합한 하이브리드 모델 아키텍처, 그리고 새롭게 부상하는 확산 LLMs에 대한 배경 및 기술적 세부 사항을 다룹니다. 또한, 이러한 기술들이 다른 모달리티에 적용되는 사례를 논의하고, 확장 가능하며 자원을 고려한 기반 모델 개발에 대한 광범위한 함의를 고찰합니다. 최근 연구들을 위 범주로 그룹화함으로써, 본 조사는 현대적이고 효율적인 LLM 아키텍처의 청사진을 제시하며, 이를 통해 더 효율적이고 다재다능한 AI 시스템을 향한 미래 연구를 촉진할 수 있기를 기대합니다.
English
Large Language Models (LLMs) have delivered impressive results in language
understanding, generation, reasoning, and pushes the ability boundary of
multimodal models. Transformer models, as the foundation of modern LLMs, offer
a strong baseline with excellent scaling properties. However, the traditional
transformer architecture requires substantial computations and poses
significant obstacles for large-scale training and practical deployment. In
this survey, we offer a systematic examination of innovative LLM architectures
that address the inherent limitations of transformers and boost the efficiency.
Starting from language modeling, this survey covers the background and
technical details of linear and sparse sequence modeling methods, efficient
full attention variants, sparse mixture-of-experts, hybrid model architectures
incorporating the above techniques, and emerging diffusion LLMs. Additionally,
we discuss applications of these techniques to other modalities and consider
their wider implications for developing scalable, resource-aware foundation
models. By grouping recent studies into the above category, this survey
presents a blueprint of modern efficient LLM architectures, and we hope this
could help motivate future research toward more efficient, versatile AI
systems.