Attenzione Ibrida Lineare Fatto Bene: Distillazione Efficiente e Architetture Efficaci per Contesti Estremamente Lunghi

Abstract

Le architetture ibride Transformer, che combinano blocchi di attenzione softmax e reti neurali ricorrenti (RNN), hanno dimostrato un compromesso desiderabile tra prestazioni e velocità di elaborazione per la modellazione di contesti lunghi, ma la loro adozione e studio sono ostacolati dal costo proibitivo del pre-addestramento su larga scala partendo da zero. Alcuni studi recenti hanno mostrato che i blocchi di attenzione softmax pre-addestrati possono essere convertiti in blocchi RNN attraverso trasferimento di parametri e distillazione della conoscenza. Tuttavia, questi metodi di trasferimento richiedono quantità sostanziali di dati di addestramento (più di 10 miliardi di token), e i modelli ibridi risultanti mostrano anche scarse prestazioni con contesti lunghi, scenario in cui i modelli ibridi beneficiano di significative accelerazioni inferenziali rispetto ai modelli basati su Transformer. In questo articolo, presentiamo HALO (Hybrid Attention via Layer Optimization), una pipeline per distillare modelli Transformer in modelli ibridi RNN-attenzione. Presentiamo poi HypeNet, un'architettura ibrida con superiore capacità di generalizzazione sulla lunghezza abilitata da uno nuovo schema di codifica posizionale (denominato HyPE) e varie modifiche architetturali. Convertiamo la serie Qwen3 in HypeNet utilizzando HALO, raggiungendo prestazioni comparabili ai modelli Transformer originali, godendo al contempo di prestazioni ed efficienza superiori con contesti lunghi. La conversione richiede solo 2,3 miliardi di token, meno dello 0,01% dei loro dati di pre-addestramento.

English

Hybrid Transformer architectures, which combine softmax attention blocks and recurrent neural networks (RNNs), have shown a desirable performance-throughput tradeoff for long-context modeling, but their adoption and studies are hindered by the prohibitive cost of large-scale pre-training from scratch. Some recent studies have shown that pre-trained softmax attention blocks can be converted into RNN blocks through parameter transfer and knowledge distillation. However, these transfer methods require substantial amounts of training data (more than 10B tokens), and the resulting hybrid models also exhibit poor long-context performance, which is the scenario where hybrid models enjoy significant inference speedups over Transformer-based models. In this paper, we present HALO (Hybrid Attention via Layer Optimization), a pipeline for distilling Transformer models into RNN-attention hybrid models. We then present HypeNet, a hybrid architecture with superior length generalization enabled by a novel position encoding scheme (named HyPE) and various architectural modifications. We convert the Qwen3 series into HypeNet using HALO, achieving performance comparable to the original Transformer models while enjoying superior long-context performance and efficiency. The conversion requires just 2.3B tokens, less than 0.01% of their pre-training data

Attenzione Ibrida Lineare Fatto Bene: Distillazione Efficiente e Architetture Efficaci per Contesti Estremamente Lunghi

Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts

Abstract

Support