MiniCPM-SALA:疎性注意と線形注意のハイブリッド化による効率的な長文脈モデリング
MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling
February 12, 2026
著者: MiniCPM Team, Wenhao An, Yingfa Chen, Yewei Fang, Jiayi Li, Xin Li, Yaohui Li, Yishan Li, Yuxuan Li, Biyuan Lin, Chuan Liu, Hezi Liu, Siyuan Liu, Hongya Lyu, Yinxu Pan, Shixin Ren, Xingyu Shen, Zhou Su, Haojun Sun, Yangang Sun, Zhen Leng Thai, Xin Tian, Rui Wang, Xiaorong Wang, Yudong Wang, Bo Wu, Xiaoyue Xu, Dong Xu, Shuaikang Xue, Jiawei Yang, Bowen Zhang, Jinqian Zhang, Letian Zhang, Shengnan Zhang, Xinyu Zhang, Xinyuan Zhang, Zhu Zhang, Hengyu Zhao, Jiacheng Zhao, Jie Zhou, Zihan Zhou, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI
要旨
大規模言語モデル(LLM)の超長文脈応用への進化は、Transformerアーキテクチャの高い計算コストとメモリコストによって課題に直面している。既存のスパース注意機構や線形注意機構はこれらの問題緩和を試みているが、一般的にメモリ効率とモデル性能の間でトレードオフが生じる。本論文では、スパース注意機構(InfLLM-V2)の高精度な長文脈モデリング能力と、線形注意機構(Lightning Attention)の大域的な効率性を統合した9BパラメータのハイブリッドアーキテクチャであるMiniCPM-SALAを提案する。層選択アルゴリズムを用いてこれらの機構を1:3の比率で統合し、ハイブリッド位置符号化(HyPE)を採用することで、モデルは長文脈タスクにおいて効率性と性能を両立する。さらに、事前学習済みTransformerベースモデルをハイブリッドモデルに変換するコスト効率の高い継続学習フレームワークを導入し、スクラッチからの学習と比較して学習コストを約75%削減する。大規模な実験により、MiniCPM-SALAは完全注意機構モデルに匹敵する汎用能力を維持しつつ、効率性を向上させることを実証する。単一のNVIDIA A6000D GPU上で、本モデルは256Kトークンの系列長において完全注意機構モデル比最大3.5倍の推論速度を達成し、従来の完全注意機構8Bモデルがメモリ制約により失敗する100万トークンまでの文脈長をサポートする。
English
The evolution of large language models (LLMs) towards applications with ultra-long contexts faces challenges posed by the high computational and memory costs of the Transformer architecture. While existing sparse and linear attention mechanisms attempt to mitigate these issues, they typically involve a trade-off between memory efficiency and model performance. This paper introduces MiniCPM-SALA, a 9B-parameter hybrid architecture that integrates the high-fidelity long-context modeling of sparse attention (InfLLM-V2) with the global efficiency of linear attention (Lightning Attention). By employing a layer selection algorithm to integrate these mechanisms in a 1:3 ratio and utilizing a hybrid positional encoding (HyPE), the model maintains efficiency and performance for long-context tasks. Furthermore, we introduce a cost-effective continual training framework that transforms pre-trained Transformer-based models into hybrid models, which reduces training costs by approximately 75% compared to training from scratch. Extensive experiments show that MiniCPM-SALA maintains general capabilities comparable to full-attention models while offering improved efficiency. On a single NVIDIA A6000D GPU, the model achieves up to 3.5x the inference speed of the full-attention model at the sequence length of 256K tokens and supports context lengths of up to 1M tokens, a scale where traditional full-attention 8B models fail because of memory constraints.