ChatPaper.aiChatPaper

ReHyAt: ビデオ拡散トランスフォーマーのためのリカレントハイブリッドアテンション

ReHyAt: Recurrent Hybrid Attention for Video Diffusion Transformers

January 7, 2026
著者: Mohsen Ghafoorian, Amirhossein Habibian
cs.AI

要旨

近年、ビデオ拡散モデルの進歩はトランスフォーマーベースのアーキテクチャへと移行し、最先端のビデオ生成を実現している。しかし、その代償として二次関数的な注意複雑性が生じ、長いシーケンスに対する拡張性を大幅に制限している。本論文では、Recurrent Hybrid Attention(ReHyAt)を提案する。これは、ソフトマックス注意の高精度性と線形注意の効率性を組み合わせたもので、チャンク単位の回帰的定式化と一定メモリ使用量を実現する。線形注意のみを用いる同時期の研究SANA Videoとは異なり、ReHyAtのハイブリッド設計により、既存のソフトマックスベースモデルからの効率的な知識蒸留が可能となり、トレーニングコストを約160 GPU時間へと2桁削減しつつ、品質において遜色ない結果を得る。我々の軽量な蒸留とファインチューニングのパイプラインは、将来の双方向ソフトマックスベースの最先端モデルにも適用可能な手法を提供する。VBenchおよびVBench-2.0を用いた実験と人間による嗜好性調査により、ReHyAtが注意コストを二次関数的から線形へ削減しつつ、最先端のビデオ品質を達成し、長時間及びオンデバイスでの実用的なビデオ生成の拡張性を開放することを実証する。プロジェクトページはhttps://qualcomm-ai-research.github.io/rehyat で公開されている。
English
Recent advances in video diffusion models have shifted towards transformer-based architectures, achieving state-of-the-art video generation but at the cost of quadratic attention complexity, which severely limits scalability for longer sequences. We introduce ReHyAt, a Recurrent Hybrid Attention mechanism that combines the fidelity of softmax attention with the efficiency of linear attention, enabling chunk-wise recurrent reformulation and constant memory usage. Unlike the concurrent linear-only SANA Video, ReHyAt's hybrid design allows efficient distillation from existing softmax-based models, reducing the training cost by two orders of magnitude to ~160 GPU hours, while being competitive in the quality. Our light-weight distillation and finetuning pipeline provides a recipe that can be applied to future state-of-the-art bidirectional softmax-based models. Experiments on VBench and VBench-2.0, as well as a human preference study, demonstrate that ReHyAt achieves state-of-the-art video quality while reducing attention cost from quadratic to linear, unlocking practical scalability for long-duration and on-device video generation. Project page is available at https://qualcomm-ai-research.github.io/rehyat.
PDF14January 10, 2026