ReHyAt: Atenção Híbrida Recorrente para Transformadores de Difusão em Vídeo

Resumo

Os recentes avanços em modelos de difusão de vídeo têm migrado para arquiteturas baseadas em transformadores, alcançando a geração de vídeo de última geração, mas ao custo de uma complexidade de atenção quadrática, o que limita severamente a escalabilidade para sequências mais longas. Apresentamos o ReHyAt, um mecanismo de Atenção Híbrida Recorrente que combina a fidelidade da atenção softmax com a eficiência da atenção linear, permitindo uma reformulação recorrente por blocos e um uso de memória constante. Diferente do SANA Video, concorrente e puramente linear, o design híbrido do ReHyAt permite uma destilação eficiente a partir de modelos existentes baseados em softmax, reduzindo o custo de treinamento em duas ordens de magnitude para aproximadamente 160 horas de GPU, mantendo-se competitivo em qualidade. Nossa pipeline leve de destilação e ajuste fino oferece uma receita que pode ser aplicada a futuros modelos bidirecionais de última geração baseados em softmax. Experimentos no VBench e VBench-2.0, bem como um estudo de preferência humana, demonstram que o ReHyAt alcança qualidade de vídeo state-of-the-art enquanto reduz o custo de atenção de quadrático para linear, desbloqueando uma escalabilidade prática para geração de vídeo de longa duração e em dispositivos. A página do projeto está disponível em https://qualcomm-ai-research.github.io/rehyat.

English

Recent advances in video diffusion models have shifted towards transformer-based architectures, achieving state-of-the-art video generation but at the cost of quadratic attention complexity, which severely limits scalability for longer sequences. We introduce ReHyAt, a Recurrent Hybrid Attention mechanism that combines the fidelity of softmax attention with the efficiency of linear attention, enabling chunk-wise recurrent reformulation and constant memory usage. Unlike the concurrent linear-only SANA Video, ReHyAt's hybrid design allows efficient distillation from existing softmax-based models, reducing the training cost by two orders of magnitude to ~160 GPU hours, while being competitive in the quality. Our light-weight distillation and finetuning pipeline provides a recipe that can be applied to future state-of-the-art bidirectional softmax-based models. Experiments on VBench and VBench-2.0, as well as a human preference study, demonstrate that ReHyAt achieves state-of-the-art video quality while reducing attention cost from quadratic to linear, unlocking practical scalability for long-duration and on-device video generation. Project page is available at https://qualcomm-ai-research.github.io/rehyat.

ReHyAt: Atenção Híbrida Recorrente para Transformadores de Difusão em Vídeo

ReHyAt: Recurrent Hybrid Attention for Video Diffusion Transformers

Resumo

Support