Jede Aufmerksamkeit zählt: Eine effiziente hybride Architektur für das Schließen über lange Kontexte

papers.abstract

In diesem technischen Bericht präsentieren wir die Ring-linear-Modellserie, insbesondere Ring-mini-linear-2.0 und Ring-flash-linear-2.0. Ring-mini-linear-2.0 umfasst 16B Parameter und 957M Aktivierungen, während Ring-flash-linear-2.0 104B Parameter und 6,1B Aktivierungen enthält. Beide Modelle verwenden eine hybride Architektur, die lineare Aufmerksamkeit und Softmax-Aufmerksamkeit effektiv integriert und den I/O- und Rechenaufwand in Langzeitkontext-Inferenzszenarien erheblich reduziert. Im Vergleich zu einem dichten Modell mit 32 Milliarden Parametern reduziert diese Serie die Inferenzkosten auf 1/10, und im Vergleich zur ursprünglichen Ring-Serie werden die Kosten ebenfalls um über 50 % gesenkt. Darüber hinaus haben wir durch systematische Untersuchung des Verhältnisses zwischen verschiedenen Aufmerksamkeitsmechanismen in der hybriden Architektur die derzeit optimale Modellstruktur identifiziert. Zusätzlich wurde durch die Nutzung unserer selbst entwickelten Hochleistungs-FP8-Operator-Bibliothek „linghe“ die Gesamttrainings effizienz um 50 % gesteigert. Dank der hohen Übereinstimmung zwischen den Trainings- und Inferenz-Engine-Operatoren können die Modelle während der Verstärkungslernphase langfristig, stabil und hocheffizient optimiert werden und dabei durchgängig Spitzenleistungen in mehreren anspruchsvollen komplexen Reasoning-Benchmarks erzielen.

English

In this technical report, we present the Ring-linear model series, specifically including Ring-mini-linear-2.0 and Ring-flash-linear-2.0. Ring-mini-linear-2.0 comprises 16B parameters and 957M activations, while Ring-flash-linear-2.0 contains 104B parameters and 6.1B activations. Both models adopt a hybrid architecture that effectively integrates linear attention and softmax attention, significantly reducing I/O and computational overhead in long-context inference scenarios. Compared to a 32 billion parameter dense model, this series reduces inference cost to 1/10, and compared to the original Ring series, the cost is also reduced by over 50%. Furthermore, through systematic exploration of the ratio between different attention mechanisms in the hybrid architecture, we have identified the currently optimal model structure. Additionally, by leveraging our self-developed high-performance FP8 operator library-linghe, overall training efficiency has been improved by 50%. Benefiting from the high alignment between the training and inference engine operators, the models can undergo long-term, stable, and highly efficient optimization during the reinforcement learning phase, consistently maintaining SOTA performance across multiple challenging complex reasoning benchmarks.

Jede Aufmerksamkeit zählt: Eine effiziente hybride Architektur für das Schließen über lange Kontexte

Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning

papers.abstract

Support