すべての注意が重要:長文脈推論のための効率的なハイブリッドアーキテクチャ
Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning
October 22, 2025
著者: Ling Team, Bin Han, Caizhi Tang, Chen Liang, Donghao Zhang, Fan Yuan, Feng Zhu, Jie Gao, Jingyu Hu, Longfei Li, Meng Li, Mingyang Zhang, Peijie Jiang, Peng Jiao, Qian Zhao, Qingyuan Yang, Wenbo Shen, Xinxing Yang, Yalin Zhang, Yankun Ren, Yao Zhao, Yibo Cao, Yixuan Sun, Yue Zhang, Yuchen Fang, Zibin Lin, Zixuan Cheng, Jun Zhou
cs.AI
要旨
本技術レポートでは、Ring-linearモデルシリーズ、特にRing-mini-linear-2.0とRing-flash-linear-2.0を紹介します。Ring-mini-linear-2.0は16Bのパラメータと957Mのアクティベーションを備え、Ring-flash-linear-2.0は104Bのパラメータと6.1Bのアクティベーションを有しています。両モデルは、線形アテンションとソフトマックスアテンションを効果的に統合したハイブリッドアーキテクチャを採用しており、長文脈推論シナリオにおけるI/Oと計算オーバーヘッドを大幅に削減します。320億パラメータの密モデルと比較して、このシリーズは推論コストを1/10に削減し、オリジナルのRingシリーズと比較してもコストを50%以上削減しています。さらに、ハイブリッドアーキテクチャにおける異なるアテンションメカニズムの比率を体系的に探索することで、現在の最適なモデル構造を特定しました。加えて、独自開発の高性能FP8演算子ライブラリ「linghe」を活用することで、全体のトレーニング効率を50%向上させました。トレーニングエンジンと推論エンジンの演算子間の高い整合性により、モデルは強化学習フェーズにおいて長期的で安定した高効率な最適化を実現し、複数の挑戦的な複雑推論ベンチマークで一貫してSOTA性能を維持しています。
English
In this technical report, we present the Ring-linear model series,
specifically including Ring-mini-linear-2.0 and Ring-flash-linear-2.0.
Ring-mini-linear-2.0 comprises 16B parameters and 957M activations, while
Ring-flash-linear-2.0 contains 104B parameters and 6.1B activations. Both
models adopt a hybrid architecture that effectively integrates linear attention
and softmax attention, significantly reducing I/O and computational overhead in
long-context inference scenarios. Compared to a 32 billion parameter dense
model, this series reduces inference cost to 1/10, and compared to the original
Ring series, the cost is also reduced by over 50%. Furthermore, through
systematic exploration of the ratio between different attention mechanisms in
the hybrid architecture, we have identified the currently optimal model
structure. Additionally, by leveraging our self-developed high-performance FP8
operator library-linghe, overall training efficiency has been improved by 50%.
Benefiting from the high alignment between the training and inference engine
operators, the models can undergo long-term, stable, and highly efficient
optimization during the reinforcement learning phase, consistently maintaining
SOTA performance across multiple challenging complex reasoning benchmarks.