ChatPaper.aiChatPaper

Ogni Attenzione Conta: Un'Architettura Ibrida Efficiente per il Ragionamento su Contesti Lunghi

Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning

October 22, 2025
Autori: Ling Team, Bin Han, Caizhi Tang, Chen Liang, Donghao Zhang, Fan Yuan, Feng Zhu, Jie Gao, Jingyu Hu, Longfei Li, Meng Li, Mingyang Zhang, Peijie Jiang, Peng Jiao, Qian Zhao, Qingyuan Yang, Wenbo Shen, Xinxing Yang, Yalin Zhang, Yankun Ren, Yao Zhao, Yibo Cao, Yixuan Sun, Yue Zhang, Yuchen Fang, Zibin Lin, Zixuan Cheng, Jun Zhou
cs.AI

Abstract

In questo rapporto tecnico, presentiamo la serie di modelli Ring-linear, includendo specificamente Ring-mini-linear-2.0 e Ring-flash-linear-2.0. Ring-mini-linear-2.0 comprende 16 miliardi di parametri e 957 milioni di attivazioni, mentre Ring-flash-linear-2.0 contiene 104 miliardi di parametri e 6,1 miliardi di attivazioni. Entrambi i modelli adottano un'architettura ibrida che integra efficacemente l'attenzione lineare e l'attenzione softmax, riducendo significativamente l'overhead di I/O e computazionale negli scenari di inferenza a contesto lungo. Rispetto a un modello denso da 32 miliardi di parametri, questa serie riduce il costo di inferenza a 1/10, e rispetto alla serie Ring originale, il costo è ridotto di oltre il 50%. Inoltre, attraverso un'esplorazione sistematica del rapporto tra diversi meccanismi di attenzione nell'architettura ibrida, abbiamo identificato la struttura del modello attualmente ottimale. In aggiunta, sfruttando la nostra libreria di operatori FP8 ad alte prestazioni auto-sviluppata, linghe, l'efficienza complessiva dell'addestramento è stata migliorata del 50%. Grazie all'elevata allineamento tra gli operatori del motore di addestramento e di inferenza, i modelli possono subire un'ottimizzazione a lungo termine, stabile e altamente efficiente durante la fase di apprendimento per rinforzo, mantenendo costantemente prestazioni SOTA su molteplici benchmark complessi e impegnativi di ragionamento.
English
In this technical report, we present the Ring-linear model series, specifically including Ring-mini-linear-2.0 and Ring-flash-linear-2.0. Ring-mini-linear-2.0 comprises 16B parameters and 957M activations, while Ring-flash-linear-2.0 contains 104B parameters and 6.1B activations. Both models adopt a hybrid architecture that effectively integrates linear attention and softmax attention, significantly reducing I/O and computational overhead in long-context inference scenarios. Compared to a 32 billion parameter dense model, this series reduces inference cost to 1/10, and compared to the original Ring series, the cost is also reduced by over 50%. Furthermore, through systematic exploration of the ratio between different attention mechanisms in the hybrid architecture, we have identified the currently optimal model structure. Additionally, by leveraging our self-developed high-performance FP8 operator library-linghe, overall training efficiency has been improved by 50%. Benefiting from the high alignment between the training and inference engine operators, the models can undergo long-term, stable, and highly efficient optimization during the reinforcement learning phase, consistently maintaining SOTA performance across multiple challenging complex reasoning benchmarks.
PDF572October 23, 2025