UltraGen : Génération de vidéo haute résolution avec attention hiérarchique

papers.abstract

Les récents progrès dans la génération vidéo ont permis de produire des visuels captivants, avec des applications variées dans la création de contenu, le divertissement et la réalité virtuelle. Cependant, la plupart des modèles existants de génération vidéo basés sur des transformateurs à diffusion sont limités à des résolutions basses (<=720P) en raison de la complexité computationnelle quadratique du mécanisme d'attention par rapport à la largeur et à la hauteur de la sortie. Ce goulot d'étranglement computationnel rend la génération native de vidéos haute résolution (1080P/2K/4K) impraticable à la fois pour l'entraînement et l'inférence. Pour relever ce défi, nous présentons UltraGen, un nouveau cadre de génération vidéo qui permet i) une synthèse vidéo native haute résolution efficace et ii) de bout en bout. Plus précisément, UltraGen intègre une architecture d'attention hiérarchique à double branche basée sur une décomposition attention globale-locale, qui découple l'attention complète en une branche d'attention locale pour un contenu régional haute fidélité et une branche d'attention globale pour la cohérence sémantique globale. Nous proposons en outre une stratégie de modélisation globale spatialement compressée pour apprendre efficacement les dépendances globales, ainsi qu'un mécanisme d'attention locale hiérarchique entre fenêtres pour réduire les coûts computationnels tout en améliorant le flux d'information entre différentes fenêtres locales. Des expériences approfondies démontrent qu'UltraGen peut efficacement adapter des modèles vidéo pré-entraînés à basse résolution à des résolutions 1080P et même 4K pour la première fois, surpassant les méthodes existantes de pointe et les pipelines en deux étapes basés sur la super-résolution dans les évaluations qualitatives et quantitatives.

English

Recent advances in video generation have made it possible to produce visually compelling videos, with wide-ranging applications in content creation, entertainment, and virtual reality. However, most existing diffusion transformer based video generation models are limited to low-resolution outputs (<=720P) due to the quadratic computational complexity of the attention mechanism with respect to the output width and height. This computational bottleneck makes native high-resolution video generation (1080P/2K/4K) impractical for both training and inference. To address this challenge, we present UltraGen, a novel video generation framework that enables i) efficient and ii) end-to-end native high-resolution video synthesis. Specifically, UltraGen features a hierarchical dual-branch attention architecture based on global-local attention decomposition, which decouples full attention into a local attention branch for high-fidelity regional content and a global attention branch for overall semantic consistency. We further propose a spatially compressed global modeling strategy to efficiently learn global dependencies, and a hierarchical cross-window local attention mechanism to reduce computational costs while enhancing information flow across different local windows. Extensive experiments demonstrate that UltraGen can effectively scale pre-trained low-resolution video models to 1080P and even 4K resolution for the first time, outperforming existing state-of-the-art methods and super-resolution based two-stage pipelines in both qualitative and quantitative evaluations.

UltraGen : Génération de vidéo haute résolution avec attention hiérarchique

UltraGen: High-Resolution Video Generation with Hierarchical Attention

papers.abstract

Support