ChatPaper.aiChatPaper

MiniCPM-SALA: 희소 어텐션과 선형 어텐션의 혼합을 통한 효율적인 장문 컨텍스트 모델링

MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

February 12, 2026
저자: MiniCPM Team, Wenhao An, Yingfa Chen, Yewei Fang, Jiayi Li, Xin Li, Yaohui Li, Yishan Li, Yuxuan Li, Biyuan Lin, Chuan Liu, Hezi Liu, Siyuan Liu, Hongya Lyu, Yinxu Pan, Shixin Ren, Xingyu Shen, Zhou Su, Haojun Sun, Yangang Sun, Zhen Leng Thai, Xin Tian, Rui Wang, Xiaorong Wang, Yudong Wang, Bo Wu, Xiaoyue Xu, Dong Xu, Shuaikang Xue, Jiawei Yang, Bowen Zhang, Jinqian Zhang, Letian Zhang, Shengnan Zhang, Xinyu Zhang, Xinyuan Zhang, Zhu Zhang, Hengyu Zhao, Jiacheng Zhao, Jie Zhou, Zihan Zhou, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI

초록

초장기 콘텍스트를 활용하는 애플리케이션으로의 대규모 언어 모델(LLM) 발전은 Transformer 아키텍처의 높은 계산 및 메모리 비용으로 인한 과제에 직면해 있습니다. 기존의 희소 주의력 및 선형 주의력 메커니즘이 이러한 문제를 완화하려 시도하지만, 일반적으로 메모리 효율성과 모델 성능 간의 트레이드오프를 수반합니다. 본 논문은 90억 개의 파라미터를 가진 하이브리드 아키텍처인 MiniCPM-SALA를 소개합니다. 이는 희소 주의력(InfLLM-V2)의 높은 정밀도의 장기 콘텍스트 모델링과 선형 주의력(Lightning Attention)의 전역 효율성을 통합합니다. 레이어 선택 알고리즘을 사용하여 이러한 메커니즘을 1:3 비율로 통합하고 하이브리드 위치 인코딩(HyPE)을 활용함으로써, 이 모델은 장기 콘텍스트 작업에 대해 효율성과 성능을 유지합니다. 더 나아가, 우리는 사전 훈련된 Transformer 기반 모델을 하이브리드 모델로 변환하는 비용 효율적인 지속 훈련 프레임워크를 도입하며, 이는 처음부터 훈련하는 것에 비해 훈련 비용을 약 75% 절감합니다. 광범위한 실험 결과, MiniCPM-SALA는 향상된 효율성을 제공하면서도 전체 주의력 모델에 버금가는 일반적인 능력을 유지하는 것으로 나타났습니다. 단일 NVIDIA A6000D GPU에서 이 모델은 256K 토큰 시퀀스 길이에서 전체 주의력 모델 대비 최대 3.5배의 추론 속도를 달성하며, 최대 1M 토큰의 콘텍스트 길이를 지원합니다. 이는 메모리 제약으로 인해 기존의 전체 주의력을 사용하는 80억 파라미터 모델들이 실패하는 규모입니다.
English
The evolution of large language models (LLMs) towards applications with ultra-long contexts faces challenges posed by the high computational and memory costs of the Transformer architecture. While existing sparse and linear attention mechanisms attempt to mitigate these issues, they typically involve a trade-off between memory efficiency and model performance. This paper introduces MiniCPM-SALA, a 9B-parameter hybrid architecture that integrates the high-fidelity long-context modeling of sparse attention (InfLLM-V2) with the global efficiency of linear attention (Lightning Attention). By employing a layer selection algorithm to integrate these mechanisms in a 1:3 ratio and utilizing a hybrid positional encoding (HyPE), the model maintains efficiency and performance for long-context tasks. Furthermore, we introduce a cost-effective continual training framework that transforms pre-trained Transformer-based models into hybrid models, which reduces training costs by approximately 75% compared to training from scratch. Extensive experiments show that MiniCPM-SALA maintains general capabilities comparable to full-attention models while offering improved efficiency. On a single NVIDIA A6000D GPU, the model achieves up to 3.5x the inference speed of the full-attention model at the sequence length of 256K tokens and supports context lengths of up to 1M tokens, a scale where traditional full-attention 8B models fail because of memory constraints.
PDF50February 14, 2026