ChatPaper.aiChatPaper

ReHyAt : Attention Hybride Récurrente pour les Transformateurs de Diffusion Vidéo

ReHyAt: Recurrent Hybrid Attention for Video Diffusion Transformers

January 7, 2026
papers.authors: Mohsen Ghafoorian, Amirhossein Habibian
cs.AI

papers.abstract

Les récents progrès des modèles de diffusion vidéo s'orientent vers des architectures basées sur des transformers, atteignant des performances de pointe en génération vidéo mais au prix d'une complexité attentionnelle quadratique, qui limite sévèrement l'évolutivité pour des séquences plus longues. Nous présentons ReHyAt, un mécanisme d'Attention Hybride Récurrente qui combine la fidélité de l'attention softmax avec l'efficacité de l'attention linéaire, permettant une reformulation récurrente par blocs et une utilisation mémoire constante. Contrairement au modèle concurrent SANA Video purement linéaire, la conception hybride de ReHyAt permet une distillation efficace à partir de modèles existants basés sur softmax, réduisant le coût d'entraînement de deux ordres de grandeur à environ 160 heures GPU, tout en restant compétitive en qualité. Notre pipeline léger de distillation et de微-tuning fournit une recette applicable aux futurs modèles bidirectionnels basés sur softmax. Les expériences sur VBench et VBench-2.0, ainsi qu'une étude de préférence humaine, démontrent que ReHyAt atteint une qualité vidéo state-of-the-art tout en réduisant le coût attentionnel de quadratique à linéaire, permettant une scalabilité pratique pour la génération vidéo de longue durée et sur appareil. La page du projet est disponible à l'adresse https://qualcomm-ai-research.github.io/rehyat.
English
Recent advances in video diffusion models have shifted towards transformer-based architectures, achieving state-of-the-art video generation but at the cost of quadratic attention complexity, which severely limits scalability for longer sequences. We introduce ReHyAt, a Recurrent Hybrid Attention mechanism that combines the fidelity of softmax attention with the efficiency of linear attention, enabling chunk-wise recurrent reformulation and constant memory usage. Unlike the concurrent linear-only SANA Video, ReHyAt's hybrid design allows efficient distillation from existing softmax-based models, reducing the training cost by two orders of magnitude to ~160 GPU hours, while being competitive in the quality. Our light-weight distillation and finetuning pipeline provides a recipe that can be applied to future state-of-the-art bidirectional softmax-based models. Experiments on VBench and VBench-2.0, as well as a human preference study, demonstrate that ReHyAt achieves state-of-the-art video quality while reducing attention cost from quadratic to linear, unlocking practical scalability for long-duration and on-device video generation. Project page is available at https://qualcomm-ai-research.github.io/rehyat.
PDF14January 10, 2026