ChatPaper.aiChatPaper

Atención Lineal Híbrida Bien Hecha: Destilación Eficiente y Arquitecturas Efectivas para Contextos Extremadamente Largos

Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts

January 29, 2026
Autores: Yingfa Chen, Zhen Leng Thai, Zihan Zhou, Zhu Zhang, Xingyu Shen, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu
cs.AI

Resumen

Las arquitecturas Transformer Híbridas, que combinan bloques de atención softmax y redes neuronales recurrentes (RNN), han demostrado un equilibrio deseable entre rendimiento y rendimiento para el modelado de contexto largo, pero su adopción y estudio se ven obstaculizados por el costo prohibitivo del preentrenamiento a gran escala desde cero. Algunos estudios recientes han demostrado que los bloques de atención softmax preentrenados pueden convertirse en bloques RNN mediante transferencia de parámetros y destilación de conocimiento. Sin embargo, estos métodos de transferencia requieren cantidades sustanciales de datos de entrenamiento (más de 10 mil millones de tokens), y los modelos híbridos resultantes también exhiben un rendimiento deficiente en contextos largos, que es el escenario donde los modelos híbridos disfrutan de aceleraciones de inferencia significativas sobre los modelos basados en Transformer. En este artículo, presentamos HALO (Atención Híbrida mediante Optimización de Capas), una canalización para destilar modelos Transformer en modelos híbridos de atención-RNN. Luego presentamos HypeNet, una arquitectura híbrida con generalización de longitud superior habilitada por un novedoso esquema de codificación posicional (denominado HyPE) y varias modificaciones arquitectónicas. Convertimos la serie Qwen3 en HypeNet usando HALO, logrando un rendimiento comparable a los modelos Transformer originales mientras disfrutamos de un rendimiento y eficiencia superiores en contextos largos. La conversión requiere solo 2.3 mil millones de tokens, menos del 0.01% de sus datos de preentrenamiento.
English
Hybrid Transformer architectures, which combine softmax attention blocks and recurrent neural networks (RNNs), have shown a desirable performance-throughput tradeoff for long-context modeling, but their adoption and studies are hindered by the prohibitive cost of large-scale pre-training from scratch. Some recent studies have shown that pre-trained softmax attention blocks can be converted into RNN blocks through parameter transfer and knowledge distillation. However, these transfer methods require substantial amounts of training data (more than 10B tokens), and the resulting hybrid models also exhibit poor long-context performance, which is the scenario where hybrid models enjoy significant inference speedups over Transformer-based models. In this paper, we present HALO (Hybrid Attention via Layer Optimization), a pipeline for distilling Transformer models into RNN-attention hybrid models. We then present HypeNet, a hybrid architecture with superior length generalization enabled by a novel position encoding scheme (named HyPE) and various architectural modifications. We convert the Qwen3 series into HypeNet using HALO, achieving performance comparable to the original Transformer models while enjoying superior long-context performance and efficiency. The conversion requires just 2.3B tokens, less than 0.01% of their pre-training data
PDF54January 31, 2026