UltraGen : Génération de vidéo haute résolution avec attention hiérarchique
UltraGen: High-Resolution Video Generation with Hierarchical Attention
October 21, 2025
papers.authors: Teng Hu, Jiangning Zhang, Zihan Su, Ran Yi
cs.AI
papers.abstract
Les récents progrès dans la génération vidéo ont permis de produire des visuels captivants, avec des applications variées dans la création de contenu, le divertissement et la réalité virtuelle. Cependant, la plupart des modèles existants de génération vidéo basés sur des transformateurs à diffusion sont limités à des résolutions basses (<=720P) en raison de la complexité computationnelle quadratique du mécanisme d'attention par rapport à la largeur et à la hauteur de la sortie. Ce goulot d'étranglement computationnel rend la génération native de vidéos haute résolution (1080P/2K/4K) impraticable à la fois pour l'entraînement et l'inférence. Pour relever ce défi, nous présentons UltraGen, un nouveau cadre de génération vidéo qui permet i) une synthèse vidéo native haute résolution efficace et ii) de bout en bout. Plus précisément, UltraGen intègre une architecture d'attention hiérarchique à double branche basée sur une décomposition attention globale-locale, qui découple l'attention complète en une branche d'attention locale pour un contenu régional haute fidélité et une branche d'attention globale pour la cohérence sémantique globale. Nous proposons en outre une stratégie de modélisation globale spatialement compressée pour apprendre efficacement les dépendances globales, ainsi qu'un mécanisme d'attention locale hiérarchique entre fenêtres pour réduire les coûts computationnels tout en améliorant le flux d'information entre différentes fenêtres locales. Des expériences approfondies démontrent qu'UltraGen peut efficacement adapter des modèles vidéo pré-entraînés à basse résolution à des résolutions 1080P et même 4K pour la première fois, surpassant les méthodes existantes de pointe et les pipelines en deux étapes basés sur la super-résolution dans les évaluations qualitatives et quantitatives.
English
Recent advances in video generation have made it possible to produce visually
compelling videos, with wide-ranging applications in content creation,
entertainment, and virtual reality. However, most existing diffusion
transformer based video generation models are limited to low-resolution outputs
(<=720P) due to the quadratic computational complexity of the attention
mechanism with respect to the output width and height. This computational
bottleneck makes native high-resolution video generation (1080P/2K/4K)
impractical for both training and inference. To address this challenge, we
present UltraGen, a novel video generation framework that enables i) efficient
and ii) end-to-end native high-resolution video synthesis. Specifically,
UltraGen features a hierarchical dual-branch attention architecture based on
global-local attention decomposition, which decouples full attention into a
local attention branch for high-fidelity regional content and a global
attention branch for overall semantic consistency. We further propose a
spatially compressed global modeling strategy to efficiently learn global
dependencies, and a hierarchical cross-window local attention mechanism to
reduce computational costs while enhancing information flow across different
local windows. Extensive experiments demonstrate that UltraGen can effectively
scale pre-trained low-resolution video models to 1080P and even 4K resolution
for the first time, outperforming existing state-of-the-art methods and
super-resolution based two-stage pipelines in both qualitative and quantitative
evaluations.