ChatPaper.aiChatPaper

UltraGen: Generación de Vídeo de Alta Resolución con Atención Jerárquica

UltraGen: High-Resolution Video Generation with Hierarchical Attention

October 21, 2025
Autores: Teng Hu, Jiangning Zhang, Zihan Su, Ran Yi
cs.AI

Resumen

Los avances recientes en la generación de videos han permitido producir contenidos visualmente atractivos, con aplicaciones amplias en la creación de contenido, entretenimiento y realidad virtual. Sin embargo, la mayoría de los modelos existentes basados en transformadores de difusión para la generación de videos están limitados a salidas de baja resolución (<=720P) debido a la complejidad computacional cuadrática del mecanismo de atención con respecto al ancho y alto de la salida. Este cuello de botella computacional hace que la generación nativa de videos de alta resolución (1080P/2K/4K) sea poco práctica tanto para el entrenamiento como para la inferencia. Para abordar este desafío, presentamos UltraGen, un novedoso marco de generación de videos que permite i) una síntesis eficiente y ii) de extremo a extremo de videos nativos de alta resolución. Específicamente, UltraGen cuenta con una arquitectura jerárquica de atención de doble rama basada en la descomposición de atención global-local, que desacopla la atención completa en una rama de atención local para contenido regional de alta fidelidad y una rama de atención global para la coherencia semántica general. Además, proponemos una estrategia de modelado global comprimido espacialmente para aprender eficientemente las dependencias globales, y un mecanismo de atención local jerárquico entre ventanas para reducir los costos computacionales mientras se mejora el flujo de información entre diferentes ventanas locales. Experimentos extensivos demuestran que UltraGen puede escalar efectivamente modelos preentrenados de videos de baja resolución a 1080P e incluso a 4K por primera vez, superando a los métodos existentes de vanguardia y a las canalizaciones de dos etapas basadas en superresolución tanto en evaluaciones cualitativas como cuantitativas.
English
Recent advances in video generation have made it possible to produce visually compelling videos, with wide-ranging applications in content creation, entertainment, and virtual reality. However, most existing diffusion transformer based video generation models are limited to low-resolution outputs (<=720P) due to the quadratic computational complexity of the attention mechanism with respect to the output width and height. This computational bottleneck makes native high-resolution video generation (1080P/2K/4K) impractical for both training and inference. To address this challenge, we present UltraGen, a novel video generation framework that enables i) efficient and ii) end-to-end native high-resolution video synthesis. Specifically, UltraGen features a hierarchical dual-branch attention architecture based on global-local attention decomposition, which decouples full attention into a local attention branch for high-fidelity regional content and a global attention branch for overall semantic consistency. We further propose a spatially compressed global modeling strategy to efficiently learn global dependencies, and a hierarchical cross-window local attention mechanism to reduce computational costs while enhancing information flow across different local windows. Extensive experiments demonstrate that UltraGen can effectively scale pre-trained low-resolution video models to 1080P and even 4K resolution for the first time, outperforming existing state-of-the-art methods and super-resolution based two-stage pipelines in both qualitative and quantitative evaluations.
PDF142October 22, 2025