Cada Atenção Importa: Uma Arquitetura Híbrida Eficiente para Raciocínio de Contexto Longo

Resumo

Neste relatório técnico, apresentamos a série de modelos Ring-linear, especificamente incluindo o Ring-mini-linear-2.0 e o Ring-flash-linear-2.0. O Ring-mini-linear-2.0 compreende 16 bilhões de parâmetros e 957 milhões de ativações, enquanto o Ring-flash-linear-2.0 contém 104 bilhões de parâmetros e 6,1 bilhões de ativações. Ambos os modelos adotam uma arquitetura híbrida que integra efetivamente a atenção linear e a atenção softmax, reduzindo significativamente a sobrecarga de I/O e computacional em cenários de inferência de contexto longo. Comparado a um modelo denso de 32 bilhões de parâmetros, esta série reduz o custo de inferência para 1/10, e em comparação com a série Ring original, o custo também é reduzido em mais de 50%. Além disso, através da exploração sistemática da proporção entre diferentes mecanismos de atenção na arquitetura híbrida, identificamos a estrutura de modelo atualmente ótima. Adicionalmente, ao aproveitar nossa biblioteca de operadores de alta performance FP8 auto-desenvolvida, chamada linghe, a eficiência geral do treinamento foi melhorada em 50%. Beneficiando-se da alta alinhamento entre os operadores do motor de treinamento e inferência, os modelos podem passar por uma otimização de longo prazo, estável e altamente eficiente durante a fase de aprendizado por reforço, mantendo consistentemente desempenho SOTA em múltiplos benchmarks desafiadores de raciocínio complexo.

English

In this technical report, we present the Ring-linear model series, specifically including Ring-mini-linear-2.0 and Ring-flash-linear-2.0. Ring-mini-linear-2.0 comprises 16B parameters and 957M activations, while Ring-flash-linear-2.0 contains 104B parameters and 6.1B activations. Both models adopt a hybrid architecture that effectively integrates linear attention and softmax attention, significantly reducing I/O and computational overhead in long-context inference scenarios. Compared to a 32 billion parameter dense model, this series reduces inference cost to 1/10, and compared to the original Ring series, the cost is also reduced by over 50%. Furthermore, through systematic exploration of the ratio between different attention mechanisms in the hybrid architecture, we have identified the currently optimal model structure. Additionally, by leveraging our self-developed high-performance FP8 operator library-linghe, overall training efficiency has been improved by 50%. Benefiting from the high alignment between the training and inference engine operators, the models can undergo long-term, stable, and highly efficient optimization during the reinforcement learning phase, consistently maintaining SOTA performance across multiple challenging complex reasoning benchmarks.

Cada Atenção Importa: Uma Arquitetura Híbrida Eficiente para Raciocínio de Contexto Longo

Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning

Resumo

Support