UltraGen: Generazione di Video ad Alta Risoluzione con Attenzione Gerarchica
UltraGen: High-Resolution Video Generation with Hierarchical Attention
October 21, 2025
Autori: Teng Hu, Jiangning Zhang, Zihan Su, Ran Yi
cs.AI
Abstract
I recenti progressi nella generazione di video hanno reso possibile produrre contenuti visivamente accattivanti, con applicazioni ampie nella creazione di contenuti, nell'intrattenimento e nella realtà virtuale. Tuttavia, la maggior parte dei modelli esistenti basati su trasformatori di diffusione per la generazione di video è limitata a output a bassa risoluzione (<=720P) a causa della complessità computazionale quadratica del meccanismo di attenzione rispetto alla larghezza e all'altezza dell'output. Questo collo di bottiglia computazionale rende impraticabile la generazione nativa di video ad alta risoluzione (1080P/2K/4K) sia per l'addestramento che per l'inferenza. Per affrontare questa sfida, presentiamo UltraGen, un nuovo framework per la generazione di video che consente i) una sintesi efficiente e ii) end-to-end di video nativi ad alta risoluzione. Nello specifico, UltraGen presenta un'architettura di attenzione dual-branch gerarchica basata sulla decomposizione dell'attenzione globale-locale, che disaccoppia l'attenzione completa in un ramo di attenzione locale per contenuti regionali ad alta fedeltà e un ramo di attenzione globale per la coerenza semantica complessiva. Proponiamo inoltre una strategia di modellazione globale compressa spazialmente per apprendere in modo efficiente le dipendenze globali, e un meccanismo di attenzione locale gerarchica cross-window per ridurre i costi computazionali migliorando al contempo il flusso di informazioni tra diverse finestre locali. Esperimenti estensivi dimostrano che UltraGen può scalare efficacemente modelli pre-addestrati per video a bassa risoluzione fino a 1080P e persino 4K per la prima volta, superando i metodi state-of-the-art esistenti e le pipeline a due stadi basate su super-risoluzione sia nelle valutazioni qualitative che quantitative.
English
Recent advances in video generation have made it possible to produce visually
compelling videos, with wide-ranging applications in content creation,
entertainment, and virtual reality. However, most existing diffusion
transformer based video generation models are limited to low-resolution outputs
(<=720P) due to the quadratic computational complexity of the attention
mechanism with respect to the output width and height. This computational
bottleneck makes native high-resolution video generation (1080P/2K/4K)
impractical for both training and inference. To address this challenge, we
present UltraGen, a novel video generation framework that enables i) efficient
and ii) end-to-end native high-resolution video synthesis. Specifically,
UltraGen features a hierarchical dual-branch attention architecture based on
global-local attention decomposition, which decouples full attention into a
local attention branch for high-fidelity regional content and a global
attention branch for overall semantic consistency. We further propose a
spatially compressed global modeling strategy to efficiently learn global
dependencies, and a hierarchical cross-window local attention mechanism to
reduce computational costs while enhancing information flow across different
local windows. Extensive experiments demonstrate that UltraGen can effectively
scale pre-trained low-resolution video models to 1080P and even 4K resolution
for the first time, outperforming existing state-of-the-art methods and
super-resolution based two-stage pipelines in both qualitative and quantitative
evaluations.