Follow-Your-Canvas: 다양한 콘텐츠 생성을 통한 고해상도 비디오 아웃페인팅
Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation
September 2, 2024
저자: Qihua Chen, Yue Ma, Hongfa Wang, Junkun Yuan, Wenzhe Zhao, Qi Tian, Hongmei Wang, Shaobo Min, Qifeng Chen, Wei Liu
cs.AI
초록
본 논문은 광범위한 콘텐츠 생성을 통한 고해상도 비디오 외부 채움에 대해 탐구합니다. 우리는 비디오를 대규모로 외부 채움하려는 기존 방법들이 직면하는 일반적인 문제점을 지적합니다: 저품질 콘텐츠 생성과 GPU 메모리로 인한 제약. 이러한 도전에 대처하기 위해 우리는 Follow-Your-Canvas라는 확산 기반 방법을 제안합니다. 이 방법은 두 가지 핵심 설계를 기반으로 합니다. 첫째, "single-shot" 외부 채움의 일반적인 방법 대신, 우리는 작업을 공간 창에 분산시키고 이를 매끄럽게 병합합니다. 이를 통해 GPU 메모리에 제약받지 않고 어떤 크기와 해상도의 비디오도 외부 채움할 수 있습니다. 둘째, 각 창의 생성 과정에 소스 비디오와 상대적인 위치 관계를 주입합니다. 이는 각 창 내에서 생성된 공간 레이아웃이 소스 비디오와 조화를 이루도록 합니다. 이 두 설계와 결합함으로써 우리는 공간적 및 시간적 일관성을 유지하면서 풍부한 콘텐츠를 갖춘 고해상도 외부 채움 비디오를 생성할 수 있습니다. Follow-Your-Canvas는 512X512에서 1152X2048(9배)로의 대규모 비디오 외부 채움에서 뛰어난 성과를 보여주며 고품질이고 미적으로 매력적인 결과물을 생성합니다. 다양한 해상도 및 규모 설정에서 최상의 양적 결과를 달성합니다. 코드는 https://github.com/mayuelala/FollowYourCanvas에서 공개되어 있습니다.
English
This paper explores higher-resolution video outpainting with extensive
content generation. We point out common issues faced by existing methods when
attempting to largely outpaint videos: the generation of low-quality content
and limitations imposed by GPU memory. To address these challenges, we propose
a diffusion-based method called Follow-Your-Canvas. It builds upon two
core designs. First, instead of employing the common practice of "single-shot"
outpainting, we distribute the task across spatial windows and seamlessly merge
them. It allows us to outpaint videos of any size and resolution without being
constrained by GPU memory. Second, the source video and its relative positional
relation are injected into the generation process of each window. It makes the
generated spatial layout within each window harmonize with the source video.
Coupling with these two designs enables us to generate higher-resolution
outpainting videos with rich content while keeping spatial and temporal
consistency. Follow-Your-Canvas excels in large-scale video outpainting, e.g.,
from 512X512 to 1152X2048 (9X), while producing high-quality and aesthetically
pleasing results. It achieves the best quantitative results across various
resolution and scale setups. The code is released on
https://github.com/mayuelala/FollowYourCanvasSummary
AI-Generated Summary