ChatPaper.aiChatPaper

고해상도 비디오 생성을 위한 계층적 패치 확산 모델

Hierarchical Patch Diffusion Models for High-Resolution Video Generation

June 12, 2024
저자: Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov
cs.AI

초록

확산 모델(Diffusion models)은 이미지 및 비디오 합성 분야에서 뛰어난 성능을 입증해 왔습니다. 그러나 이를 고해상도 입력으로 확장하는 것은 어려운 과제이며, 확산 파이프라인을 여러 독립적인 구성 요소로 재구성해야 하기 때문에 확장성을 제한하고 다운스트림 애플리케이션을 복잡하게 만듭니다. 이는 훈련 중 매우 효율적이며 고해상도 비디오에서의 종단 간(end-to-end) 최적화를 가능하게 합니다. 우리는 PDM(확산 모델)을 두 가지 원칙적인 방법으로 개선했습니다. 첫째, 패치 간 일관성을 강화하기 위해 저해상도에서 고해상도 패치로 컨텍스트 정보를 계층적으로 전파하는 심층 컨텍스트 융합(deep context fusion)이라는 아키텍처 기법을 개발했습니다. 둘째, 훈련 및 추론 속도를 높이기 위해 거친 이미지 세부 사항에 더 많은 네트워크 용량과 계산을 할당하는 적응형 계산(adaptive computation)을 제안했습니다. 결과적으로, 이 모델은 UCF-101 256^2 데이터셋에서 클래스 조건부 비디오 생성 분야에서 66.32의 FVD 점수와 87.68의 Inception 점수를 달성하여 최신 방법을 100% 이상 능가하는 새로운 최첨단 성능을 기록했습니다. 또한, 이 모델은 36x64 저해상도 생성기에서 고해상도 64x288x512 텍스트-투-비디오 합성을 위해 빠르게 미세 조정될 수 있음을 보여줍니다. 우리가 아는 한, 이 모델은 이러한 고해상도에서 완전히 종단 간으로 훈련된 최초의 확산 기반 아키텍처입니다. 프로젝트 웹페이지: https://snap-research.github.io/hpdm.
English
Diffusion models have demonstrated remarkable performance in image and video synthesis. However, scaling them to high-resolution inputs is challenging and requires restructuring the diffusion pipeline into multiple independent components, limiting scalability and complicating downstream applications. This makes it very efficient during training and unlocks end-to-end optimization on high-resolution videos. We improve PDMs in two principled ways. First, to enforce consistency between patches, we develop deep context fusion -- an architectural technique that propagates the context information from low-scale to high-scale patches in a hierarchical manner. Second, to accelerate training and inference, we propose adaptive computation, which allocates more network capacity and computation towards coarse image details. The resulting model sets a new state-of-the-art FVD score of 66.32 and Inception Score of 87.68 in class-conditional video generation on UCF-101 256^2, surpassing recent methods by more than 100%. Then, we show that it can be rapidly fine-tuned from a base 36times 64 low-resolution generator for high-resolution 64 times 288 times 512 text-to-video synthesis. To the best of our knowledge, our model is the first diffusion-based architecture which is trained on such high resolutions entirely end-to-end. Project webpage: https://snap-research.github.io/hpdm.
PDF160December 8, 2024