ChatPaper.aiChatPaper

ReHyAt: Atención Híbrida Recurrente para Transformadores de Difusión de Video

ReHyAt: Recurrent Hybrid Attention for Video Diffusion Transformers

January 7, 2026
Autores: Mohsen Ghafoorian, Amirhossein Habibian
cs.AI

Resumen

Los recientes avances en modelos de difusión de video han migrado hacia arquitecturas basadas en transformadores, logrando una generación de video de vanguardia pero a costa de una complejidad de atención cuadrática, lo que limita severamente la escalabilidad para secuencias más largas. Presentamos ReHyAt, un mecanismo de Atención Híbrida Recurrente que combina la fidelidad de la atención softmax con la eficiencia de la atención lineal, permitiendo una reformulación recurrente por fragmentos y un uso de memoria constante. A diferencia del modelo concurrente SANA Video que utiliza solo atención lineal, el diseño híbrido de ReHyAt permite una destilación eficiente a partir de modelos existentes basados en softmax, reduciendo el coste de entrenamiento en dos órdenes de magnitud hasta ~160 horas de GPU, manteniéndose competitivo en calidad. Nuestro pipeline ligero de destilación y ajuste fino proporciona una receta aplicable a futuros modelos bidireccionales de última generación basados en softmax. Los experimentos en VBench y VBench-2.0, junto con un estudio de preferencia humana, demuestran que ReHyAt alcanza una calidad de video state-of-the-art mientras reduce el coste de atención de cuadrático a lineal, permitiendo una escalabilidad práctica para la generación de video de larga duración y en dispositivos. La página del proyecto está disponible en https://qualcomm-ai-research.github.io/rehyat.
English
Recent advances in video diffusion models have shifted towards transformer-based architectures, achieving state-of-the-art video generation but at the cost of quadratic attention complexity, which severely limits scalability for longer sequences. We introduce ReHyAt, a Recurrent Hybrid Attention mechanism that combines the fidelity of softmax attention with the efficiency of linear attention, enabling chunk-wise recurrent reformulation and constant memory usage. Unlike the concurrent linear-only SANA Video, ReHyAt's hybrid design allows efficient distillation from existing softmax-based models, reducing the training cost by two orders of magnitude to ~160 GPU hours, while being competitive in the quality. Our light-weight distillation and finetuning pipeline provides a recipe that can be applied to future state-of-the-art bidirectional softmax-based models. Experiments on VBench and VBench-2.0, as well as a human preference study, demonstrate that ReHyAt achieves state-of-the-art video quality while reducing attention cost from quadratic to linear, unlocking practical scalability for long-duration and on-device video generation. Project page is available at https://qualcomm-ai-research.github.io/rehyat.
PDF14January 10, 2026