Cada Atención Importa: Una Arquitectura Híbrida Eficiente para el Razonamiento de Contexto Largo

Resumen

En este informe técnico, presentamos la serie de modelos Ring-linear, que incluye específicamente Ring-mini-linear-2.0 y Ring-flash-linear-2.0. Ring-mini-linear-2.0 consta de 16B parámetros y 957M activaciones, mientras que Ring-flash-linear-2.0 contiene 104B parámetros y 6.1B activaciones. Ambos modelos adoptan una arquitectura híbrida que integra eficazmente la atención lineal y la atención softmax, reduciendo significativamente la sobrecarga de E/S y computación en escenarios de inferencia de contexto largo. En comparación con un modelo denso de 32 mil millones de parámetros, esta serie reduce el costo de inferencia a 1/10, y en comparación con la serie Ring original, el costo también se reduce en más del 50%. Además, mediante una exploración sistemática de la proporción entre diferentes mecanismos de atención en la arquitectura híbrida, hemos identificado la estructura de modelo óptima actual. Asimismo, al aprovechar nuestra biblioteca de operadores de alto rendimiento FP8 autodesarrollada, linghe, la eficiencia general del entrenamiento se ha mejorado en un 50%. Gracias a la alta alineación entre los operadores del motor de entrenamiento y el motor de inferencia, los modelos pueden someterse a una optimización estable, eficiente y a largo plazo durante la fase de aprendizaje por refuerzo, manteniendo consistentemente un rendimiento SOTA en múltiples benchmarks desafiantes de razonamiento complejo.

English

In this technical report, we present the Ring-linear model series, specifically including Ring-mini-linear-2.0 and Ring-flash-linear-2.0. Ring-mini-linear-2.0 comprises 16B parameters and 957M activations, while Ring-flash-linear-2.0 contains 104B parameters and 6.1B activations. Both models adopt a hybrid architecture that effectively integrates linear attention and softmax attention, significantly reducing I/O and computational overhead in long-context inference scenarios. Compared to a 32 billion parameter dense model, this series reduces inference cost to 1/10, and compared to the original Ring series, the cost is also reduced by over 50%. Furthermore, through systematic exploration of the ratio between different attention mechanisms in the hybrid architecture, we have identified the currently optimal model structure. Additionally, by leveraging our self-developed high-performance FP8 operator library-linghe, overall training efficiency has been improved by 50%. Benefiting from the high alignment between the training and inference engine operators, the models can undergo long-term, stable, and highly efficient optimization during the reinforcement learning phase, consistently maintaining SOTA performance across multiple challenging complex reasoning benchmarks.

Cada Atención Importa: Una Arquitectura Híbrida Eficiente para el Razonamiento de Contexto Largo

Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning

Resumen

Support