UltraGen: Генерация видео высокого разрешения с использованием иерархического внимания

Аннотация

Последние достижения в области генерации видео сделали возможным создание визуально привлекательных видеороликов с широким спектром применений в создании контента, развлечениях и виртуальной реальности. Однако большинство существующих моделей генерации видео на основе диффузионных трансформеров ограничены низким разрешением выходных данных (<=720P) из-за квадратичной вычислительной сложности механизма внимания относительно ширины и высоты выходного изображения. Этот вычислительный барьер делает нативную генерацию видео высокого разрешения (1080P/2K/4K) непрактичной как для обучения, так и для вывода. Для решения этой проблемы мы представляем UltraGen, новую структуру генерации видео, которая позволяет i) эффективно и ii) сквозным образом синтезировать видео высокого разрешения. В частности, UltraGen использует иерархическую архитектуру с двумя ветвями внимания, основанную на декомпозиции глобального и локального внимания, что разделяет полное внимание на локальную ветвь для высококачественного регионального контента и глобальную ветвь для обеспечения общей семантической согласованности. Мы также предлагаем стратегию пространственно сжатого глобального моделирования для эффективного изучения глобальных зависимостей и иерархический механизм локального внимания между окнами для снижения вычислительных затрат при улучшении потока информации между различными локальными окнами. Многочисленные эксперименты демонстрируют, что UltraGen впервые эффективно масштабирует предварительно обученные модели видео низкого разрешения до 1080P и даже 4K, превосходя существующие передовые методы и двухэтапные подходы на основе повышения разрешения как в качественных, так и в количественных оценках.

English

Recent advances in video generation have made it possible to produce visually compelling videos, with wide-ranging applications in content creation, entertainment, and virtual reality. However, most existing diffusion transformer based video generation models are limited to low-resolution outputs (<=720P) due to the quadratic computational complexity of the attention mechanism with respect to the output width and height. This computational bottleneck makes native high-resolution video generation (1080P/2K/4K) impractical for both training and inference. To address this challenge, we present UltraGen, a novel video generation framework that enables i) efficient and ii) end-to-end native high-resolution video synthesis. Specifically, UltraGen features a hierarchical dual-branch attention architecture based on global-local attention decomposition, which decouples full attention into a local attention branch for high-fidelity regional content and a global attention branch for overall semantic consistency. We further propose a spatially compressed global modeling strategy to efficiently learn global dependencies, and a hierarchical cross-window local attention mechanism to reduce computational costs while enhancing information flow across different local windows. Extensive experiments demonstrate that UltraGen can effectively scale pre-trained low-resolution video models to 1080P and even 4K resolution for the first time, outperforming existing state-of-the-art methods and super-resolution based two-stage pipelines in both qualitative and quantitative evaluations.