ChatPaper.aiChatPaper

ReHyAt: Рекуррентная гибридная внимание-механизм для видео-диффузионных трансформеров

ReHyAt: Recurrent Hybrid Attention for Video Diffusion Transformers

January 7, 2026
Авторы: Mohsen Ghafoorian, Amirhossein Habibian
cs.AI

Аннотация

Последние достижения в области видео-диффузионных моделей связаны с переходом на трансформерные архитектуры, которые обеспечивают генерацию видео высочайшего качества, однако ценой квадратичной сложности механизма внимания, что серьезно ограничивает масштабируемость для длинных последовательностей. Мы представляем ReHyAt — рекуррентный гибридный механизм внимания, сочетающий точность softmax-внимания с эффективностью линейного внимания, что позволяет реализовать поблочную рекуррентную реформулировку и постоянное использование памяти. В отличие от конкурирующей модели SANA Video, использующей исключительно линейное внимание, гибридная архитектура ReHyAt обеспечивает эффективное дистиллирование существующих моделей на основе softmax, сокращая стоимость обучения на два порядка (до ~160 GPU-часов) при сохранении конкурентоспособного качества. Наш легковесный конвейер дистиллирования и дообучения предлагает методологию, применимую к будущим передовым двунаправленным моделям на основе softmax. Эксперименты на VBench и VBench-2.0, а также исследование пользовательских предпочтений демонстрируют, что ReHyAt достигает высочайшего качества видео, снижая стоимость механизма внимания с квадратичной до линейной, что открывает практическую возможность масштабирования для генерации длительных видео и работы на устройствах. Страница проекта доступна по адресу https://qualcomm-ai-research.github.io/rehyat.
English
Recent advances in video diffusion models have shifted towards transformer-based architectures, achieving state-of-the-art video generation but at the cost of quadratic attention complexity, which severely limits scalability for longer sequences. We introduce ReHyAt, a Recurrent Hybrid Attention mechanism that combines the fidelity of softmax attention with the efficiency of linear attention, enabling chunk-wise recurrent reformulation and constant memory usage. Unlike the concurrent linear-only SANA Video, ReHyAt's hybrid design allows efficient distillation from existing softmax-based models, reducing the training cost by two orders of magnitude to ~160 GPU hours, while being competitive in the quality. Our light-weight distillation and finetuning pipeline provides a recipe that can be applied to future state-of-the-art bidirectional softmax-based models. Experiments on VBench and VBench-2.0, as well as a human preference study, demonstrate that ReHyAt achieves state-of-the-art video quality while reducing attention cost from quadratic to linear, unlocking practical scalability for long-duration and on-device video generation. Project page is available at https://qualcomm-ai-research.github.io/rehyat.
PDF14January 10, 2026