ChatPaper.aiChatPaper

UltraGen: Hochauflösende Videogenerierung mit hierarchischer Aufmerksamkeit

UltraGen: High-Resolution Video Generation with Hierarchical Attention

October 21, 2025
papers.authors: Teng Hu, Jiangning Zhang, Zihan Su, Ran Yi
cs.AI

papers.abstract

Jüngste Fortschritte in der Videogenerierung haben es ermöglicht, visuell ansprechende Videos zu erzeugen, mit weitreichenden Anwendungen in der Inhaltserstellung, Unterhaltung und Virtual Reality. Die meisten bestehenden, auf Diffusions-Transformatoren basierenden Videogenerierungsmodelle sind jedoch aufgrund der quadratischen Rechenkomplexität des Aufmerksamkeitsmechanismus in Bezug auf die Ausgabebreite und -höhe auf niedrigauflösende Ausgaben (<=720P) beschränkt. Dieser Rechenengpass macht die native Hochauflösungs-Videogenerierung (1080P/2K/4K) sowohl für das Training als auch für die Inferenz unpraktikabel. Um diese Herausforderung zu bewältigen, stellen wir UltraGen vor, ein neuartiges Videogenerierungsframework, das i) effiziente und ii) end-to-end native Hochauflösungs-Videosynthese ermöglicht. Insbesondere zeichnet sich UltraGen durch eine hierarchische Dual-Branch-Aufmerksamkeitsarchitektur basierend auf der global-lokalen Aufmerksamkeitszerlegung aus, die die volle Aufmerksamkeit in einen lokalen Aufmerksamkeitszweig für hochauflösende regionale Inhalte und einen globalen Aufmerksamkeitszweig für die allgemeine semantische Konsistenz entkoppelt. Wir schlagen weiterhin eine räumlich komprimierte globale Modellierungsstrategie vor, um globale Abhängigkeiten effizient zu erlernen, sowie einen hierarchischen Cross-Window-Lokal-Aufmerksamkeitsmechanismus, um die Rechenkosten zu reduzieren und gleichzeitig den Informationsfluss über verschiedene lokale Fenster zu verbessern. Umfangreiche Experimente zeigen, dass UltraGen vortrainierte niedrigauflösende Videomodelle erstmals effektiv auf 1080P und sogar 4K-Auflösung skalieren kann und dabei sowohl in qualitativen als auch quantitativen Bewertungen bestehende state-of-the-art Methoden und zweistufige Super-Resolution-Pipelines übertrifft.
English
Recent advances in video generation have made it possible to produce visually compelling videos, with wide-ranging applications in content creation, entertainment, and virtual reality. However, most existing diffusion transformer based video generation models are limited to low-resolution outputs (<=720P) due to the quadratic computational complexity of the attention mechanism with respect to the output width and height. This computational bottleneck makes native high-resolution video generation (1080P/2K/4K) impractical for both training and inference. To address this challenge, we present UltraGen, a novel video generation framework that enables i) efficient and ii) end-to-end native high-resolution video synthesis. Specifically, UltraGen features a hierarchical dual-branch attention architecture based on global-local attention decomposition, which decouples full attention into a local attention branch for high-fidelity regional content and a global attention branch for overall semantic consistency. We further propose a spatially compressed global modeling strategy to efficiently learn global dependencies, and a hierarchical cross-window local attention mechanism to reduce computational costs while enhancing information flow across different local windows. Extensive experiments demonstrate that UltraGen can effectively scale pre-trained low-resolution video models to 1080P and even 4K resolution for the first time, outperforming existing state-of-the-art methods and super-resolution based two-stage pipelines in both qualitative and quantitative evaluations.
PDF142October 22, 2025