Hybride Lineaire Aandacht Goed Gedaan: Efficiënte Distillatie en Effectieve Architecturen voor Extreem Lange Contexten

Samenvatting

Hybride Transformer-architecturen, die softmax-attentieblokken en recurrent neural networks (RNN's) combineren, vertonen een gunstige balans tussen prestaties en doorvoersnelheid voor modellering met lange context, maar hun adoptie en bestudering worden belemmerd door de buitensporige kosten van grootschalige pre-training vanaf nul. Sommige recente studies tonen aan dat voorgetrainde softmax-attentieblokken kunnen worden omgezet in RNN-blokken via parameteroverdracht en knowledge distillation. Deze overdrachtsmethoden vereisen echter aanzienlijke hoeveelheden trainingsdata (meer dan 10B tokens), en de resulterende hybride modellen vertonen ook slechte prestaties bij lange context - precies het scenario waarin hybride modellen aanzienlijke inferentieversnellingen bieden ten opzichte van Transformer-gebaseerde modellen. In dit artikel presenteren we HALO (Hybrid Attention via Layer Optimization), een pijplijn voor het destilleren van Transformer-modellen naar hybride RNN-attentiemodellen. Vervolgens introduceren we HypeNet, een hybride architectuur met superieure lengtegeneralizatie, mogelijk gemaakt door een nieuwe positioneringscodering (genaamd HyPE) en diverse architectuurwijzigingen. We zetten de Qwen3-reeks om naar HypeNet met behulp van HALO, waarbij we vergelijkbare prestaties bereiken als de oorspronkelijke Transformer-modellen, terwijl we profiteren van superieure prestaties en efficiëntie bij lange context. De conversie vereist slechts 2,3B tokens, minder dan 0,01% van hun pre-trainingdata.

English

Hybrid Transformer architectures, which combine softmax attention blocks and recurrent neural networks (RNNs), have shown a desirable performance-throughput tradeoff for long-context modeling, but their adoption and studies are hindered by the prohibitive cost of large-scale pre-training from scratch. Some recent studies have shown that pre-trained softmax attention blocks can be converted into RNN blocks through parameter transfer and knowledge distillation. However, these transfer methods require substantial amounts of training data (more than 10B tokens), and the resulting hybrid models also exhibit poor long-context performance, which is the scenario where hybrid models enjoy significant inference speedups over Transformer-based models. In this paper, we present HALO (Hybrid Attention via Layer Optimization), a pipeline for distilling Transformer models into RNN-attention hybrid models. We then present HypeNet, a hybrid architecture with superior length generalization enabled by a novel position encoding scheme (named HyPE) and various architectural modifications. We convert the Qwen3 series into HypeNet using HALO, achieving performance comparable to the original Transformer models while enjoying superior long-context performance and efficiency. The conversion requires just 2.3B tokens, less than 0.01% of their pre-training data

Hybride Lineaire Aandacht Goed Gedaan: Efficiënte Distillatie en Effectieve Architecturen voor Extreem Lange Contexten

Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts

Samenvatting

Support