UltraGen: Geração de Vídeos de Alta Resolução com Atenção Hierárquica
UltraGen: High-Resolution Video Generation with Hierarchical Attention
October 21, 2025
Autores: Teng Hu, Jiangning Zhang, Zihan Su, Ran Yi
cs.AI
Resumo
Avanços recentes na geração de vídeos tornaram possível produzir vídeos visualmente impressionantes, com amplas aplicações em criação de conteúdo, entretenimento e realidade virtual. No entanto, a maioria dos modelos existentes de geração de vídeos baseados em transformadores de difusão é limitada a saídas de baixa resolução (<=720P) devido à complexidade computacional quadrática do mecanismo de atenção em relação à largura e altura da saída. Esse gargalo computacional torna a geração nativa de vídeos de alta resolução (1080P/2K/4K) impraticável tanto para treinamento quanto para inferência. Para enfrentar esse desafio, apresentamos o UltraGen, uma nova estrutura de geração de vídeos que permite i) síntese eficiente e ii) nativa de vídeos de alta resolução de ponta a ponta. Especificamente, o UltraGen apresenta uma arquitetura hierárquica de atenção de duplo ramo baseada na decomposição de atenção global-local, que desacopla a atenção completa em um ramo de atenção local para conteúdo regional de alta fidelidade e um ramo de atenção global para consistência semântica geral. Propomos ainda uma estratégia de modelagem global espacialmente comprimida para aprender eficientemente dependências globais, e um mecanismo hierárquico de atenção local entre janelas para reduzir custos computacionais enquanto melhora o fluxo de informações entre diferentes janelas locais. Experimentos extensivos demonstram que o UltraGen pode efetivamente escalar modelos pré-treinados de vídeos de baixa resolução para 1080P e até 4K pela primeira vez, superando métodos state-of-the-art existentes e pipelines de duas etapas baseados em super-resolução em avaliações qualitativas e quantitativas.
English
Recent advances in video generation have made it possible to produce visually
compelling videos, with wide-ranging applications in content creation,
entertainment, and virtual reality. However, most existing diffusion
transformer based video generation models are limited to low-resolution outputs
(<=720P) due to the quadratic computational complexity of the attention
mechanism with respect to the output width and height. This computational
bottleneck makes native high-resolution video generation (1080P/2K/4K)
impractical for both training and inference. To address this challenge, we
present UltraGen, a novel video generation framework that enables i) efficient
and ii) end-to-end native high-resolution video synthesis. Specifically,
UltraGen features a hierarchical dual-branch attention architecture based on
global-local attention decomposition, which decouples full attention into a
local attention branch for high-fidelity regional content and a global
attention branch for overall semantic consistency. We further propose a
spatially compressed global modeling strategy to efficiently learn global
dependencies, and a hierarchical cross-window local attention mechanism to
reduce computational costs while enhancing information flow across different
local windows. Extensive experiments demonstrate that UltraGen can effectively
scale pre-trained low-resolution video models to 1080P and even 4K resolution
for the first time, outperforming existing state-of-the-art methods and
super-resolution based two-stage pipelines in both qualitative and quantitative
evaluations.