ReHyAt: Rekurrente hybride Aufmerksamkeit für Video-Diffusionstransformer
ReHyAt: Recurrent Hybrid Attention for Video Diffusion Transformers
January 7, 2026
papers.authors: Mohsen Ghafoorian, Amirhossein Habibian
cs.AI
papers.abstract
Jüngste Fortschritte bei Video-Diffusionsmodellen haben sich hin zu transformerbasierten Architekturen verschoben, die state-of-the-art Videoerzeugung erreichen, jedoch auf Kosten quadratischer Attention-Komplexität, was die Skalierbarkeit für längere Sequenzen stark einschränkt. Wir stellen ReHyAt vor, einen rekurrenten hybriden Attention-Mechanismus, der die Präzision von Softmax-Attention mit der Effizienz von linearer Attention kombiniert und eine chunkweise rekursive Reformulierung sowie konstanten Speicherverbrauch ermöglicht. Im Gegensatz zum zeitgleich entwickelten, rein linearen SANA Video erlaubt das hybride Design von ReHyAt eine effiziente Distillation von bestehenden Softmax-basierten Modellen, was die Trainingskosten um zwei Größenordnungen auf ~160 GPU-Stunden reduziert, bei gleichzeitig konkurrenzfähiger Qualität. Unsere leichtgewichtige Distillations- und Feinabstimmungs-Pipeline bietet ein Rezept, das auf zukünftige bidirektionale Softmax-basierte State-of-the-Art-Modelle anwendbar ist. Experimente mit VBench und VBench-2.0 sowie eine Human-Preference-Studie zeigen, dass ReHyAt state-of-the-art Videoqualität erreicht und dabei die Attention-Kosten von quadratisch auf linear reduziert, was praktische Skalierbarkeit für langandauernde und on-device Videoerzeugung ermöglicht. Die Projektseite ist verfügbar unter https://qualcomm-ai-research.github.io/rehyat.
English
Recent advances in video diffusion models have shifted towards transformer-based architectures, achieving state-of-the-art video generation but at the cost of quadratic attention complexity, which severely limits scalability for longer sequences. We introduce ReHyAt, a Recurrent Hybrid Attention mechanism that combines the fidelity of softmax attention with the efficiency of linear attention, enabling chunk-wise recurrent reformulation and constant memory usage. Unlike the concurrent linear-only SANA Video, ReHyAt's hybrid design allows efficient distillation from existing softmax-based models, reducing the training cost by two orders of magnitude to ~160 GPU hours, while being competitive in the quality. Our light-weight distillation and finetuning pipeline provides a recipe that can be applied to future state-of-the-art bidirectional softmax-based models. Experiments on VBench and VBench-2.0, as well as a human preference study, demonstrate that ReHyAt achieves state-of-the-art video quality while reducing attention cost from quadratic to linear, unlocking practical scalability for long-duration and on-device video generation. Project page is available at https://qualcomm-ai-research.github.io/rehyat.