ハイブリッド線形注意の正しい実現法:超長文脈における効率的な蒸留と効果的アーキテクチャ
Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts
January 29, 2026
著者: Yingfa Chen, Zhen Leng Thai, Zihan Zhou, Zhu Zhang, Xingyu Shen, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu
cs.AI
要旨
ソフトマックスアテンションブロックとリカレントニューラルネットワーク(RNN)を組み合わせたハイブリッドトランスフォーマーアーキテクチャは、長文コンテキストモデリングにおいて望ましい性能とスループットのトレードオフを示しているが、大規模な事前学習をゼロから行うための莫大なコストが、その採用と研究の障壁となっている。最近の研究では、事前学習済みのソフトマックスアテンションブロックを、パラメータ転移と知識蒸留によってRNNブロックに変換できることが示されている。しかし、これらの転移手法には大量の学習データ(100億トークン以上)が必要であり、変換されたハイブリッドモデルは長文コンテキスト性能が低いという課題がある。これは、ハイブリッドモデルがトランスフォーマーベースモデルに対して推論速度の大幅な向上が期待される場面である。
本論文では、トランスフォーマーモデルをRNN-アテンションハイブリッドモデルに蒸留するためのパイプラインであるHALO(Hybrid Attention via Layer Optimization)を提案する。さらに、新しい位置符号化方式(HyPEと命名)と様々なアーキテクチャ改良により、優れた長さ一般化性能を実現するハイブリッドアーキテクチャであるHypeNetを提示する。HALOを用いてQwen3シリーズをHypeNetに変換した結果、元のトランスフォーマーモデルと同等の性能を維持しつつ、優れた長文コンテキスト性能と効率性を実現した。この変換に必要なデータは23億トークンであり、事前学習データの0.01%未満である。
English
Hybrid Transformer architectures, which combine softmax attention blocks and recurrent neural networks (RNNs), have shown a desirable performance-throughput tradeoff for long-context modeling, but their adoption and studies are hindered by the prohibitive cost of large-scale pre-training from scratch. Some recent studies have shown that pre-trained softmax attention blocks can be converted into RNN blocks through parameter transfer and knowledge distillation. However, these transfer methods require substantial amounts of training data (more than 10B tokens), and the resulting hybrid models also exhibit poor long-context performance, which is the scenario where hybrid models enjoy significant inference speedups over Transformer-based models. In this paper, we present HALO (Hybrid Attention via Layer Optimization), a pipeline for distilling Transformer models into RNN-attention hybrid models. We then present HypeNet, a hybrid architecture with superior length generalization enabled by a novel position encoding scheme (named HyPE) and various architectural modifications. We convert the Qwen3 series into HypeNet using HALO, achieving performance comparable to the original Transformer models while enjoying superior long-context performance and efficiency. The conversion requires just 2.3B tokens, less than 0.01% of their pre-training data