ChatPaper.aiChatPaper

효율적인 증류와 효과적인 아키텍처를 통한 초장기 컨텍스트 처리를 위한 하이브리드 선형 어텐션의 정석

Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts

January 29, 2026
저자: Yingfa Chen, Zhen Leng Thai, Zihan Zhou, Zhu Zhang, Xingyu Shen, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu
cs.AI

초록

소프트맥스 어텐션 블록과 순환 신경망(RNN)을 결합한 하이브리드 트랜스포머 아키텍처는 장문 컨텍스트 모델링에서 바람직한 성능-처리량 균형을 보여주지만, 대규모 사전 학습에 따른 막대한 비용으로 인해 실제 적용과 연구가 제한되고 있습니다. 최근 연구에 따르면 사전 학습된 소프트맥스 어텐션 블록을 매개변수 이전과 지식 증류를 통해 RNN 블록으로 변환할 수 있음이 입증되었습니다. 그러나 이러한 변환 방법은 상당한 양의 학습 데이터(100억 토큰 이상)를 필요로 할 뿐만 아니라, 결과적인 하이브리드 모델은 하이브리드 모델이 트랜스포머 기반 모델 대비 추론 속도 향상의 이점을 가장 크게 누리는 시나리오인 장문 컨텍스트 성능이 저조한 문제가 있습니다. 본 논문에서는 트랜스포머 모델을 RNN-어텐션 하이브리드 모델로 증류하는 파이프라인인 HALO(Hybrid Attention via Layer Optimization)를 소개합니다. 또한 새로운 위치 인코딩 기법(HyPE)과 다양한 아키텍처 개선을 통해 우수한 길이 일반화 성능을 갖춘 하이브리드 아키텍처인 HypeNet을 제시합니다. HALO를 사용하여 Qwen3 시리즈를 HypeNet으로 변환한 결과, 원본 트랜스포머 모델과 비슷한 성능을 유지하면서도 우수한 장문 컨텍스트 성능과 효율성을 확보했습니다. 이 변환 과정에는 사전 학습 데이터의 0.01% 미만에 해당하는 23억 토큰만으로도 충분했습니다.
English
Hybrid Transformer architectures, which combine softmax attention blocks and recurrent neural networks (RNNs), have shown a desirable performance-throughput tradeoff for long-context modeling, but their adoption and studies are hindered by the prohibitive cost of large-scale pre-training from scratch. Some recent studies have shown that pre-trained softmax attention blocks can be converted into RNN blocks through parameter transfer and knowledge distillation. However, these transfer methods require substantial amounts of training data (more than 10B tokens), and the resulting hybrid models also exhibit poor long-context performance, which is the scenario where hybrid models enjoy significant inference speedups over Transformer-based models. In this paper, we present HALO (Hybrid Attention via Layer Optimization), a pipeline for distilling Transformer models into RNN-attention hybrid models. We then present HypeNet, a hybrid architecture with superior length generalization enabled by a novel position encoding scheme (named HyPE) and various architectural modifications. We convert the Qwen3 series into HypeNet using HALO, achieving performance comparable to the original Transformer models while enjoying superior long-context performance and efficiency. The conversion requires just 2.3B tokens, less than 0.01% of their pre-training data
PDF54January 31, 2026