Segui-La-Tua-Tela: Outpainting Video ad Alta Risoluzione con Generazione Estesa di Contenuti
Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation
September 2, 2024
Autori: Qihua Chen, Yue Ma, Hongfa Wang, Junkun Yuan, Wenzhe Zhao, Qi Tian, Hongmei Wang, Shaobo Min, Qifeng Chen, Wei Liu
cs.AI
Abstract
Questo articolo esplora l'outpainting video ad alta risoluzione con una generazione di contenuti estensiva. Indichiamo le problematiche comuni affrontate dai metodi esistenti nel tentativo di outpainting su larga scala dei video: la generazione di contenuti di bassa qualità e le limitazioni imposte dalla memoria GPU. Per affrontare tali sfide, proponiamo un metodo basato sulla diffusione chiamato Follow-Your-Canvas. Si basa su due concetti fondamentali. In primo luogo, anziché adottare la pratica comune dell'outpainting "single-shot", distribuiamo il compito attraverso finestre spaziali e le fondiamo in modo uniforme. Ciò ci consente di outpainting video di qualsiasi dimensione e risoluzione senza essere vincolati dalla memoria GPU. In secondo luogo, il video sorgente e la sua relazione posizionale relativa vengono inseriti nel processo generativo di ciascuna finestra. Ciò fa sì che il layout spaziale generato in ciascuna finestra si armonizzi con il video sorgente. L'accoppiamento di questi due concetti ci consente di generare video di outpainting ad alta risoluzione con contenuti ricchi mantenendo coerenza spaziale e temporale. Follow-Your-Canvas eccelle nell'outpainting video su larga scala, ad esempio, da 512X512 a 1152X2048 (9X), producendo risultati di alta qualità ed esteticamente gradevoli. Ottiene i migliori risultati quantitativi in varie configurazioni di risoluzione e scala. Il codice è disponibile su https://github.com/mayuelala/FollowYourCanvas
English
This paper explores higher-resolution video outpainting with extensive
content generation. We point out common issues faced by existing methods when
attempting to largely outpaint videos: the generation of low-quality content
and limitations imposed by GPU memory. To address these challenges, we propose
a diffusion-based method called Follow-Your-Canvas. It builds upon two
core designs. First, instead of employing the common practice of "single-shot"
outpainting, we distribute the task across spatial windows and seamlessly merge
them. It allows us to outpaint videos of any size and resolution without being
constrained by GPU memory. Second, the source video and its relative positional
relation are injected into the generation process of each window. It makes the
generated spatial layout within each window harmonize with the source video.
Coupling with these two designs enables us to generate higher-resolution
outpainting videos with rich content while keeping spatial and temporal
consistency. Follow-Your-Canvas excels in large-scale video outpainting, e.g.,
from 512X512 to 1152X2048 (9X), while producing high-quality and aesthetically
pleasing results. It achieves the best quantitative results across various
resolution and scale setups. The code is released on
https://github.com/mayuelala/FollowYourCanvas