ChatPaper.aiChatPaper

Chaque Attention Compte : Une Architecture Hybride Efficace pour le Raisonnement sur des Contextes Longs

Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning

October 22, 2025
papers.authors: Ling Team, Bin Han, Caizhi Tang, Chen Liang, Donghao Zhang, Fan Yuan, Feng Zhu, Jie Gao, Jingyu Hu, Longfei Li, Meng Li, Mingyang Zhang, Peijie Jiang, Peng Jiao, Qian Zhao, Qingyuan Yang, Wenbo Shen, Xinxing Yang, Yalin Zhang, Yankun Ren, Yao Zhao, Yibo Cao, Yixuan Sun, Yue Zhang, Yuchen Fang, Zibin Lin, Zixuan Cheng, Jun Zhou
cs.AI

papers.abstract

Dans ce rapport technique, nous présentons la série de modèles Ring-linear, incluant spécifiquement Ring-mini-linear-2.0 et Ring-flash-linear-2.0. Ring-mini-linear-2.0 comprend 16 milliards de paramètres et 957 millions d'activations, tandis que Ring-flash-linear-2.0 contient 104 milliards de paramètres et 6,1 milliards d'activations. Les deux modèles adoptent une architecture hybride qui intègre efficacement l'attention linéaire et l'attention softmax, réduisant significativement les surcharges d'I/O et de calcul dans les scénarios d'inférence à contexte long. Par rapport à un modèle dense de 32 milliards de paramètres, cette série réduit le coût d'inférence à 1/10, et par rapport à la série Ring originale, le coût est également réduit de plus de 50 %. De plus, grâce à une exploration systématique du ratio entre les différents mécanismes d'attention dans l'architecture hybride, nous avons identifié la structure de modèle actuellement optimale. En outre, en exploitant notre bibliothèque d'opérateurs FP8 haute performance auto-développée, linghe, l'efficacité globale de l'entraînement a été améliorée de 50 %. Grâce à la forte alignement entre les opérateurs du moteur d'entraînement et d'inférence, les modèles peuvent subir une optimisation stable et hautement efficace sur le long terme pendant la phase d'apprentissage par renforcement, maintenant constamment des performances de pointe (SOTA) sur plusieurs benchmarks complexes et exigeants en raisonnement.
English
In this technical report, we present the Ring-linear model series, specifically including Ring-mini-linear-2.0 and Ring-flash-linear-2.0. Ring-mini-linear-2.0 comprises 16B parameters and 957M activations, while Ring-flash-linear-2.0 contains 104B parameters and 6.1B activations. Both models adopt a hybrid architecture that effectively integrates linear attention and softmax attention, significantly reducing I/O and computational overhead in long-context inference scenarios. Compared to a 32 billion parameter dense model, this series reduces inference cost to 1/10, and compared to the original Ring series, the cost is also reduced by over 50%. Furthermore, through systematic exploration of the ratio between different attention mechanisms in the hybrid architecture, we have identified the currently optimal model structure. Additionally, by leveraging our self-developed high-performance FP8 operator library-linghe, overall training efficiency has been improved by 50%. Benefiting from the high alignment between the training and inference engine operators, the models can undergo long-term, stable, and highly efficient optimization during the reinforcement learning phase, consistently maintaining SOTA performance across multiple challenging complex reasoning benchmarks.
PDF572October 23, 2025