言語モデルのためのハイブリッドアーキテクチャ:体系的分析と設計の洞察
Hybrid Architectures for Language Models: Systematic Analysis and Design Insights
October 6, 2025
著者: Sangmin Bae, Bilge Acun, Haroun Habeeb, Seungyeon Kim, Chien-Yu Lin, Liang Luo, Junjie Wang, Carole-Jean Wu
cs.AI
要旨
大規模言語モデルの最近の進展は、自己注意機構とMambaのような構造化状態空間モデルを組み合わせたハイブリッドアーキテクチャが、特に長文脈タスクにおいて、モデリング品質と計算効率の間で魅力的なバランスを達成できることを示しています。これらのハイブリッドモデルは有望な性能を示していますが、ハイブリッド化戦略の体系的な比較や、その有効性の背後にある主要な要因に関する分析は、コミュニティに明確に共有されていません。本研究では、層間(逐次的)または層内(並列的)融合に基づくハイブリッドアーキテクチャの包括的評価を提示します。これらの設計を、言語モデリング性能、長文脈能力、スケーリング分析、および学習と推論の効率性といった多様な観点から評価します。計算プリミティブの核心的な特性を調査することで、各ハイブリッド化戦略にとって最も重要な要素を特定し、さらに両方のハイブリッドモデルに対する最適な設計レシピを提案します。我々の包括的な分析は、ハイブリッド言語モデルの開発において実践的なガイダンスと貴重な洞察を提供し、アーキテクチャ構成の最適化を促進します。
English
Recent progress in large language models demonstrates that hybrid
architectures--combining self-attention mechanisms with structured state space
models like Mamba--can achieve a compelling balance between modeling quality
and computational efficiency, particularly for long-context tasks. While these
hybrid models show promising performance, systematic comparisons of
hybridization strategies and analyses on the key factors behind their
effectiveness have not been clearly shared to the community. In this work, we
present a holistic evaluation of hybrid architectures based on inter-layer
(sequential) or intra-layer (parallel) fusion. We evaluate these designs from a
variety of perspectives: language modeling performance, long-context
capabilities, scaling analysis, and training and inference efficiency. By
investigating the core characteristics of their computational primitive, we
identify the most critical elements for each hybridization strategy and further
propose optimal design recipes for both hybrid models. Our comprehensive
analysis provides practical guidance and valuable insights for developing
hybrid language models, facilitating the optimization of architectural
configurations.