ChatPaper.aiChatPaper

Cada Atenção Importa: Uma Arquitetura Híbrida Eficiente para Raciocínio de Contexto Longo

Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning

October 22, 2025
Autores: Ling Team, Bin Han, Caizhi Tang, Chen Liang, Donghao Zhang, Fan Yuan, Feng Zhu, Jie Gao, Jingyu Hu, Longfei Li, Meng Li, Mingyang Zhang, Peijie Jiang, Peng Jiao, Qian Zhao, Qingyuan Yang, Wenbo Shen, Xinxing Yang, Yalin Zhang, Yankun Ren, Yao Zhao, Yibo Cao, Yixuan Sun, Yue Zhang, Yuchen Fang, Zibin Lin, Zixuan Cheng, Jun Zhou
cs.AI

Resumo

Neste relatório técnico, apresentamos a série de modelos Ring-linear, especificamente incluindo o Ring-mini-linear-2.0 e o Ring-flash-linear-2.0. O Ring-mini-linear-2.0 compreende 16 bilhões de parâmetros e 957 milhões de ativações, enquanto o Ring-flash-linear-2.0 contém 104 bilhões de parâmetros e 6,1 bilhões de ativações. Ambos os modelos adotam uma arquitetura híbrida que integra efetivamente a atenção linear e a atenção softmax, reduzindo significativamente a sobrecarga de I/O e computacional em cenários de inferência de contexto longo. Comparado a um modelo denso de 32 bilhões de parâmetros, esta série reduz o custo de inferência para 1/10, e em comparação com a série Ring original, o custo também é reduzido em mais de 50%. Além disso, através da exploração sistemática da proporção entre diferentes mecanismos de atenção na arquitetura híbrida, identificamos a estrutura de modelo atualmente ótima. Adicionalmente, ao aproveitar nossa biblioteca de operadores de alta performance FP8 auto-desenvolvida, chamada linghe, a eficiência geral do treinamento foi melhorada em 50%. Beneficiando-se da alta alinhamento entre os operadores do motor de treinamento e inferência, os modelos podem passar por uma otimização de longo prazo, estável e altamente eficiente durante a fase de aprendizado por reforço, mantendo consistentemente desempenho SOTA em múltiplos benchmarks desafiadores de raciocínio complexo.
English
In this technical report, we present the Ring-linear model series, specifically including Ring-mini-linear-2.0 and Ring-flash-linear-2.0. Ring-mini-linear-2.0 comprises 16B parameters and 957M activations, while Ring-flash-linear-2.0 contains 104B parameters and 6.1B activations. Both models adopt a hybrid architecture that effectively integrates linear attention and softmax attention, significantly reducing I/O and computational overhead in long-context inference scenarios. Compared to a 32 billion parameter dense model, this series reduces inference cost to 1/10, and compared to the original Ring series, the cost is also reduced by over 50%. Furthermore, through systematic exploration of the ratio between different attention mechanisms in the hybrid architecture, we have identified the currently optimal model structure. Additionally, by leveraging our self-developed high-performance FP8 operator library-linghe, overall training efficiency has been improved by 50%. Benefiting from the high alignment between the training and inference engine operators, the models can undergo long-term, stable, and highly efficient optimization during the reinforcement learning phase, consistently maintaining SOTA performance across multiple challenging complex reasoning benchmarks.
PDF572October 23, 2025