ChatPaper.aiChatPaper

UltraGen: 계층적 주의 메커니즘을 활용한 고해상도 비디오 생성

UltraGen: High-Resolution Video Generation with Hierarchical Attention

October 21, 2025
저자: Teng Hu, Jiangning Zhang, Zihan Su, Ran Yi
cs.AI

초록

최근 비디오 생성 기술의 발전으로 콘텐츠 제작, 엔터테인먼트, 가상 현실 등 다양한 분야에서 시각적으로 매력적인 비디오를 제작할 수 있게 되었습니다. 그러나 대부분의 기존 확산 트랜스포머 기반 비디오 생성 모델은 출력 너비와 높이에 대한 어텐션 메커니즘의 이차 계산 복잡도로 인해 낮은 해상도(<=720P) 출력에 제한되어 있습니다. 이러한 계산적 병목 현상은 네이티브 고해상도 비디오 생성(1080P/2K/4K)을 학습 및 추론 모두에서 비실용적으로 만듭니다. 이러한 문제를 해결하기 위해, 우리는 i) 효율적이고 ii) 엔드투엔드 네이티브 고해상도 비디오 합성을 가능하게 하는 새로운 비디오 생성 프레임워크인 UltraGen을 제안합니다. 구체적으로, UltraGen은 전역-지역 어텐션 분해를 기반으로 한 계층적 이중 분기 어텐션 아키텍처를 특징으로 하며, 이를 통해 전체 어텐션을 고충실도 지역 콘텐츠를 위한 지역 어텐션 분기와 전반적인 의미 일관성을 위한 전역 어텐션 분기로 분리합니다. 또한, 우리는 전역 의존성을 효율적으로 학습하기 위한 공간적으로 압축된 전역 모델링 전략과, 서로 다른 지역 창 간의 정보 흐름을 강화하면서 계산 비용을 줄이기 위한 계층적 교차 창 지역 어텐션 메커니즘을 제안합니다. 광범위한 실험을 통해 UltraGen이 사전 학습된 저해상도 비디오 모델을 1080P 및 4K 해상도로 효과적으로 확장할 수 있음을 입증하였으며, 이는 기존의 최첨단 방법과 초해상도 기반의 두 단계 파이프라인을 질적 및 양적 평가 모두에서 능가하는 것으로 나타났습니다.
English
Recent advances in video generation have made it possible to produce visually compelling videos, with wide-ranging applications in content creation, entertainment, and virtual reality. However, most existing diffusion transformer based video generation models are limited to low-resolution outputs (<=720P) due to the quadratic computational complexity of the attention mechanism with respect to the output width and height. This computational bottleneck makes native high-resolution video generation (1080P/2K/4K) impractical for both training and inference. To address this challenge, we present UltraGen, a novel video generation framework that enables i) efficient and ii) end-to-end native high-resolution video synthesis. Specifically, UltraGen features a hierarchical dual-branch attention architecture based on global-local attention decomposition, which decouples full attention into a local attention branch for high-fidelity regional content and a global attention branch for overall semantic consistency. We further propose a spatially compressed global modeling strategy to efficiently learn global dependencies, and a hierarchical cross-window local attention mechanism to reduce computational costs while enhancing information flow across different local windows. Extensive experiments demonstrate that UltraGen can effectively scale pre-trained low-resolution video models to 1080P and even 4K resolution for the first time, outperforming existing state-of-the-art methods and super-resolution based two-stage pipelines in both qualitative and quantitative evaluations.
PDF142October 22, 2025