ReHyAt: Recursieve Hybride Aandacht voor Video-Diffusie-Transformers
ReHyAt: Recurrent Hybrid Attention for Video Diffusion Transformers
January 7, 2026
Auteurs: Mohsen Ghafoorian, Amirhossein Habibian
cs.AI
Samenvatting
Recente vooruitgang in videodiffusiemodellen is verschoven naar transformer-gebaseerde architecturen, waarmee state-of-the-art videogeneratie wordt bereikt, maar ten koste van kwadratische aandachtcomplexiteit, wat de schaalbaarheid voor langere sequenties ernstig beperkt. Wij introduceren ReHyAt, een Recurrent Hybride Aandachtsmechanisme dat de nauwkeurigheid van softmax-aandacht combineert met de efficiëntie van lineaire aandacht, waardoor een chunk-gewijze recurrent herformulering en constant geheugengebruik mogelijk wordt. In tegenstelling tot het gelijktijdige, uitsluitend lineaire SANA Video, maakt de hybride ontwerp van ReHyAt efficiënte distillatie mogelijk van bestaande softmax-gebaseerde modellen, waardoor de trainingskosten met twee orden van grootte wordt teruggebracht tot ~160 GPU-uren, terwijl de kwaliteit competitief blijft. Onze lichtgewicht distillatie- en finetuning-pijplijn biedt een recept dat kan worden toegepast op toekomstige state-of-the-art bidirectionele softmax-gebaseerde modellen. Experimenten op VBench en VBench-2.0, evenals een onderzoek naar menselijke voorkeur, tonen aan dat ReHyAt state-of-the-art videokwaliteit bereikt terwijl de aandachtkosten worden teruggebracht van kwadratisch naar lineair, waardoor praktische schaalbaarheid voor videogeneratie van lange duur en on-device wordt ontsloten. De projectpagina is beschikbaar op https://qualcomm-ai-research.github.io/rehyat.
English
Recent advances in video diffusion models have shifted towards transformer-based architectures, achieving state-of-the-art video generation but at the cost of quadratic attention complexity, which severely limits scalability for longer sequences. We introduce ReHyAt, a Recurrent Hybrid Attention mechanism that combines the fidelity of softmax attention with the efficiency of linear attention, enabling chunk-wise recurrent reformulation and constant memory usage. Unlike the concurrent linear-only SANA Video, ReHyAt's hybrid design allows efficient distillation from existing softmax-based models, reducing the training cost by two orders of magnitude to ~160 GPU hours, while being competitive in the quality. Our light-weight distillation and finetuning pipeline provides a recipe that can be applied to future state-of-the-art bidirectional softmax-based models. Experiments on VBench and VBench-2.0, as well as a human preference study, demonstrate that ReHyAt achieves state-of-the-art video quality while reducing attention cost from quadratic to linear, unlocking practical scalability for long-duration and on-device video generation. Project page is available at https://qualcomm-ai-research.github.io/rehyat.