Atenção Linear Híbrida Feita Corretamente: Destilação Eficiente e Arquiteturas Eficazes para Contextos Extremamente Longos

Resumo

As arquiteturas Transformer Híbridas, que combinam blocos de atenção softmax e redes neurais recorrentes (RNNs), têm demonstrado um equilíbrio desejável entre desempenho e taxa de transferência para modelagem de contexto longo. No entanto, sua adoção e estudos são dificultados pelo custo proibitivo do pré-treinamento em larga escala a partir do zero. Alguns estudos recentes mostraram que blocos de atenção softmax pré-treinados podem ser convertidos em blocos RNN por meio de transferência de parâmetros e destilação de conhecimento. Contudo, esses métodos de transferência exigem volumes substanciais de dados de treinamento (mais de 10 bilhões de tokens), e os modelos híbridos resultantes também apresentam desempenho inferior em contexto longo – justamente o cenário em que os modelos híbridos possuem acelerações significativas de inferência em comparação com modelos baseados em Transformer. Neste artigo, apresentamos o HALO (Hybrid Attention via Layer Optimization), um *pipeline* para destilar modelos Transformer em modelos híbridos de atenção-RNN. Em seguida, apresentamos o HypeNet, uma arquitetura híbrida com generalização de comprimento superior, possibilitada por um novo esquema de codificação posicional (denominado HyPE) e várias modificações arquiteturais. Convertemos a série Qwen3 em HypeNet usando o HALO, alcançando desempenho comparável aos modelos Transformer originais, ao mesmo tempo que usufruímos de desempenho e eficiência superiores em contexto longo. A conversão requer apenas 2,3 bilhões de tokens, menos de 0,01% dos seus dados de pré-treinamento.

English

Hybrid Transformer architectures, which combine softmax attention blocks and recurrent neural networks (RNNs), have shown a desirable performance-throughput tradeoff for long-context modeling, but their adoption and studies are hindered by the prohibitive cost of large-scale pre-training from scratch. Some recent studies have shown that pre-trained softmax attention blocks can be converted into RNN blocks through parameter transfer and knowledge distillation. However, these transfer methods require substantial amounts of training data (more than 10B tokens), and the resulting hybrid models also exhibit poor long-context performance, which is the scenario where hybrid models enjoy significant inference speedups over Transformer-based models. In this paper, we present HALO (Hybrid Attention via Layer Optimization), a pipeline for distilling Transformer models into RNN-attention hybrid models. We then present HypeNet, a hybrid architecture with superior length generalization enabled by a novel position encoding scheme (named HyPE) and various architectural modifications. We convert the Qwen3 series into HypeNet using HALO, achieving performance comparable to the original Transformer models while enjoying superior long-context performance and efficiency. The conversion requires just 2.3B tokens, less than 0.01% of their pre-training data

Atenção Linear Híbrida Feita Corretamente: Destilação Eficiente e Arquiteturas Eficazes para Contextos Extremamente Longos

Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts

Resumo

Support