Jede Aufmerksamkeit zählt: Eine effiziente hybride Architektur für das Schließen über lange Kontexte
Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning
October 22, 2025
papers.authors: Ling Team, Bin Han, Caizhi Tang, Chen Liang, Donghao Zhang, Fan Yuan, Feng Zhu, Jie Gao, Jingyu Hu, Longfei Li, Meng Li, Mingyang Zhang, Peijie Jiang, Peng Jiao, Qian Zhao, Qingyuan Yang, Wenbo Shen, Xinxing Yang, Yalin Zhang, Yankun Ren, Yao Zhao, Yibo Cao, Yixuan Sun, Yue Zhang, Yuchen Fang, Zibin Lin, Zixuan Cheng, Jun Zhou
cs.AI
papers.abstract
In diesem technischen Bericht präsentieren wir die Ring-linear-Modellserie, insbesondere Ring-mini-linear-2.0 und Ring-flash-linear-2.0. Ring-mini-linear-2.0 umfasst 16B Parameter und 957M Aktivierungen, während Ring-flash-linear-2.0 104B Parameter und 6,1B Aktivierungen enthält. Beide Modelle verwenden eine hybride Architektur, die lineare Aufmerksamkeit und Softmax-Aufmerksamkeit effektiv integriert und den I/O- und Rechenaufwand in Langzeitkontext-Inferenzszenarien erheblich reduziert. Im Vergleich zu einem dichten Modell mit 32 Milliarden Parametern reduziert diese Serie die Inferenzkosten auf 1/10, und im Vergleich zur ursprünglichen Ring-Serie werden die Kosten ebenfalls um über 50 % gesenkt. Darüber hinaus haben wir durch systematische Untersuchung des Verhältnisses zwischen verschiedenen Aufmerksamkeitsmechanismen in der hybriden Architektur die derzeit optimale Modellstruktur identifiziert. Zusätzlich wurde durch die Nutzung unserer selbst entwickelten Hochleistungs-FP8-Operator-Bibliothek „linghe“ die Gesamttrainings effizienz um 50 % gesteigert. Dank der hohen Übereinstimmung zwischen den Trainings- und Inferenz-Engine-Operatoren können die Modelle während der Verstärkungslernphase langfristig, stabil und hocheffizient optimiert werden und dabei durchgängig Spitzenleistungen in mehreren anspruchsvollen komplexen Reasoning-Benchmarks erzielen.
English
In this technical report, we present the Ring-linear model series,
specifically including Ring-mini-linear-2.0 and Ring-flash-linear-2.0.
Ring-mini-linear-2.0 comprises 16B parameters and 957M activations, while
Ring-flash-linear-2.0 contains 104B parameters and 6.1B activations. Both
models adopt a hybrid architecture that effectively integrates linear attention
and softmax attention, significantly reducing I/O and computational overhead in
long-context inference scenarios. Compared to a 32 billion parameter dense
model, this series reduces inference cost to 1/10, and compared to the original
Ring series, the cost is also reduced by over 50%. Furthermore, through
systematic exploration of the ratio between different attention mechanisms in
the hybrid architecture, we have identified the currently optimal model
structure. Additionally, by leveraging our self-developed high-performance FP8
operator library-linghe, overall training efficiency has been improved by 50%.
Benefiting from the high alignment between the training and inference engine
operators, the models can undergo long-term, stable, and highly efficient
optimization during the reinforcement learning phase, consistently maintaining
SOTA performance across multiple challenging complex reasoning benchmarks.