ReHyAt: Attenzione Ibrida Ricorrente per Trasformatori di Diffusione Video

Abstract

I recenti progressi nei modelli di diffusione video si sono orientati verso architetture basate su transformer, raggiungendo risultati all'avanguardia nella generazione video ma al prezzo di una complessità quadratica dell'attenzione, che limita fortemente la scalabilità per sequenze più lunghe. Introduciamo ReHyAt, un meccanismo di Attenzione Ibrida Ricorrente che combina la fedeltà dell'attenzione softmax con l'efficienza dell'attenzione lineare, consentendo una riformulazione ricorrente a blocchi e un uso costante della memoria. A differenza del contemporaneo SANA Video, che utilizza solo attenzione lineare, il design ibrido di ReHyAt permette una distillazione efficiente dai modelli esistenti basati su softmax, riducendo il costo dell'addestramento di due ordini di grandezza a circa 160 ore GPU, pur risultando competitivo in termini di qualità. La nostra pipeline leggera di distillazione e fine-tuning fornisce una metodologia applicabile ai futuri modelli bidirezionali basati su softmax all'avanguardia. Esperimenti su VBench e VBench-2.0, insieme a uno studio sulle preferenze umane, dimostrano che ReHyAt raggiunge una qualità video allo stato dell'arte riducendo contemporaneamente il costo computazionale dell'attenzione da quadratico a lineare, sbloccando una scalabilità pratica per la generazione video di lunga durata e su dispositivo. La pagina del progetto è disponibile all'indirizzo https://qualcomm-ai-research.github.io/rehyat.

English

Recent advances in video diffusion models have shifted towards transformer-based architectures, achieving state-of-the-art video generation but at the cost of quadratic attention complexity, which severely limits scalability for longer sequences. We introduce ReHyAt, a Recurrent Hybrid Attention mechanism that combines the fidelity of softmax attention with the efficiency of linear attention, enabling chunk-wise recurrent reformulation and constant memory usage. Unlike the concurrent linear-only SANA Video, ReHyAt's hybrid design allows efficient distillation from existing softmax-based models, reducing the training cost by two orders of magnitude to ~160 GPU hours, while being competitive in the quality. Our light-weight distillation and finetuning pipeline provides a recipe that can be applied to future state-of-the-art bidirectional softmax-based models. Experiments on VBench and VBench-2.0, as well as a human preference study, demonstrate that ReHyAt achieves state-of-the-art video quality while reducing attention cost from quadratic to linear, unlocking practical scalability for long-duration and on-device video generation. Project page is available at https://qualcomm-ai-research.github.io/rehyat.

ReHyAt: Attenzione Ibrida Ricorrente per Trasformatori di Diffusione Video

ReHyAt: Recurrent Hybrid Attention for Video Diffusion Transformers

Abstract

Support