ChatPaper.aiChatPaper

언어 모델을 위한 하이브리드 아키텍처: 체계적 분석 및 설계 통찰

Hybrid Architectures for Language Models: Systematic Analysis and Design Insights

October 6, 2025
저자: Sangmin Bae, Bilge Acun, Haroun Habeeb, Seungyeon Kim, Chien-Yu Lin, Liang Luo, Junjie Wang, Carole-Jean Wu
cs.AI

초록

최근 대규모 언어 모델의 발전은 자기 주의 메커니즘(self-attention mechanism)과 Mamba와 같은 구조화된 상태 공간 모델(structured state space model)을 결합한 하이브리드 아키텍처가, 특히 장문맥 작업에서 모델링 품질과 계산 효율성 사이의 매력적인 균형을 달성할 수 있음을 보여주었습니다. 이러한 하이브리드 모델은 유망한 성능을 보여주지만, 하이브리드화 전략에 대한 체계적인 비교와 그 효과성의 핵심 요인에 대한 분석은 아직 명확하게 공유되지 않았습니다. 본 연구에서는 층간(순차적) 또는 층내(병렬) 융합을 기반으로 한 하이브리드 아키텍처에 대한 종합적인 평가를 제시합니다. 우리는 이러한 설계를 언어 모델링 성능, 장문맥 처리 능력, 확장성 분석, 그리고 학습 및 추론 효율성 등 다양한 관점에서 평가합니다. 이들의 계산 기본 요소의 핵심 특성을 조사함으로써, 각 하이브리드화 전략에 있어 가장 중요한 요소를 식별하고, 두 하이브리드 모델에 대한 최적의 설계 레시피를 추가로 제안합니다. 우리의 포괄적인 분석은 하이브리드 언어 모델 개발을 위한 실용적인 지침과 가치 있는 통찰을 제공하며, 아키텍처 구성의 최적화를 촉진합니다.
English
Recent progress in large language models demonstrates that hybrid architectures--combining self-attention mechanisms with structured state space models like Mamba--can achieve a compelling balance between modeling quality and computational efficiency, particularly for long-context tasks. While these hybrid models show promising performance, systematic comparisons of hybridization strategies and analyses on the key factors behind their effectiveness have not been clearly shared to the community. In this work, we present a holistic evaluation of hybrid architectures based on inter-layer (sequential) or intra-layer (parallel) fusion. We evaluate these designs from a variety of perspectives: language modeling performance, long-context capabilities, scaling analysis, and training and inference efficiency. By investigating the core characteristics of their computational primitive, we identify the most critical elements for each hybridization strategy and further propose optimal design recipes for both hybrid models. Our comprehensive analysis provides practical guidance and valuable insights for developing hybrid language models, facilitating the optimization of architectural configurations.
PDF322October 7, 2025