모든 주의가 중요하다: 장문맥 추론을 위한 효율적인 하이브리드 아키텍처
Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning
October 22, 2025
저자: Ling Team, Bin Han, Caizhi Tang, Chen Liang, Donghao Zhang, Fan Yuan, Feng Zhu, Jie Gao, Jingyu Hu, Longfei Li, Meng Li, Mingyang Zhang, Peijie Jiang, Peng Jiao, Qian Zhao, Qingyuan Yang, Wenbo Shen, Xinxing Yang, Yalin Zhang, Yankun Ren, Yao Zhao, Yibo Cao, Yixuan Sun, Yue Zhang, Yuchen Fang, Zibin Lin, Zixuan Cheng, Jun Zhou
cs.AI
초록
본 기술 보고서에서는 Ring-linear 모델 시리즈, 특히 Ring-mini-linear-2.0과 Ring-flash-linear-2.0을 소개합니다. Ring-mini-linear-2.0은 16B 파라미터와 957M 활성화를 포함하며, Ring-flash-linear-2.0은 104B 파라미터와 6.1B 활성화를 포함합니다. 두 모델 모두 선형 어텐션과 소프트맥스 어텐션을 효과적으로 통합한 하이브리드 아키텍처를 채택하여, 장문맥 추론 시나리오에서 I/O 및 계산 오버헤드를 크게 줄였습니다. 320억 파라미터의 밀집 모델과 비교했을 때, 이 시리즈는 추론 비용을 1/10로 줄였으며, 원래 Ring 시리즈와 비교해도 비용이 50% 이상 감소했습니다. 또한, 하이브리드 아키텍처 내에서 다양한 어텐션 메커니즘 간의 비율을 체계적으로 탐구함으로써 현재 최적의 모델 구조를 확인했습니다. 더불어, 자체 개발한 고성능 FP8 연산자 라이브러리인 linghe를 활용하여 전체 훈련 효율을 50% 향상시켰습니다. 훈련과 추론 엔진 연산자 간의 높은 정렬 덕분에, 모델은 강화 학습 단계에서 장기적이고 안정적이며 고효율적인 최적화를 거칠 수 있으며, 여러 도전적인 복잡 추론 벤치마크에서 지속적으로 SOTA 성능을 유지하고 있습니다.
English
In this technical report, we present the Ring-linear model series,
specifically including Ring-mini-linear-2.0 and Ring-flash-linear-2.0.
Ring-mini-linear-2.0 comprises 16B parameters and 957M activations, while
Ring-flash-linear-2.0 contains 104B parameters and 6.1B activations. Both
models adopt a hybrid architecture that effectively integrates linear attention
and softmax attention, significantly reducing I/O and computational overhead in
long-context inference scenarios. Compared to a 32 billion parameter dense
model, this series reduces inference cost to 1/10, and compared to the original
Ring series, the cost is also reduced by over 50%. Furthermore, through
systematic exploration of the ratio between different attention mechanisms in
the hybrid architecture, we have identified the currently optimal model
structure. Additionally, by leveraging our self-developed high-performance FP8
operator library-linghe, overall training efficiency has been improved by 50%.
Benefiting from the high alignment between the training and inference engine
operators, the models can undergo long-term, stable, and highly efficient
optimization during the reinforcement learning phase, consistently maintaining
SOTA performance across multiple challenging complex reasoning benchmarks.