Segui-La-Tua-Tela: Outpainting Video ad Alta Risoluzione con Generazione Estesa di Contenuti

Abstract

Questo articolo esplora l'outpainting video ad alta risoluzione con una generazione di contenuti estensiva. Indichiamo le problematiche comuni affrontate dai metodi esistenti nel tentativo di outpainting su larga scala dei video: la generazione di contenuti di bassa qualità e le limitazioni imposte dalla memoria GPU. Per affrontare tali sfide, proponiamo un metodo basato sulla diffusione chiamato Follow-Your-Canvas. Si basa su due concetti fondamentali. In primo luogo, anziché adottare la pratica comune dell'outpainting "single-shot", distribuiamo il compito attraverso finestre spaziali e le fondiamo in modo uniforme. Ciò ci consente di outpainting video di qualsiasi dimensione e risoluzione senza essere vincolati dalla memoria GPU. In secondo luogo, il video sorgente e la sua relazione posizionale relativa vengono inseriti nel processo generativo di ciascuna finestra. Ciò fa sì che il layout spaziale generato in ciascuna finestra si armonizzi con il video sorgente. L'accoppiamento di questi due concetti ci consente di generare video di outpainting ad alta risoluzione con contenuti ricchi mantenendo coerenza spaziale e temporale. Follow-Your-Canvas eccelle nell'outpainting video su larga scala, ad esempio, da 512X512 a 1152X2048 (9X), producendo risultati di alta qualità ed esteticamente gradevoli. Ottiene i migliori risultati quantitativi in varie configurazioni di risoluzione e scala. Il codice è disponibile su https://github.com/mayuelala/FollowYourCanvas

English

This paper explores higher-resolution video outpainting with extensive content generation. We point out common issues faced by existing methods when attempting to largely outpaint videos: the generation of low-quality content and limitations imposed by GPU memory. To address these challenges, we propose a diffusion-based method called Follow-Your-Canvas. It builds upon two core designs. First, instead of employing the common practice of "single-shot" outpainting, we distribute the task across spatial windows and seamlessly merge them. It allows us to outpaint videos of any size and resolution without being constrained by GPU memory. Second, the source video and its relative positional relation are injected into the generation process of each window. It makes the generated spatial layout within each window harmonize with the source video. Coupling with these two designs enables us to generate higher-resolution outpainting videos with rich content while keeping spatial and temporal consistency. Follow-Your-Canvas excels in large-scale video outpainting, e.g., from 512X512 to 1152X2048 (9X), while producing high-quality and aesthetically pleasing results. It achieves the best quantitative results across various resolution and scale setups. The code is released on https://github.com/mayuelala/FollowYourCanvas

Segui-La-Tua-Tela: Outpainting Video ad Alta Risoluzione con Generazione Estesa di Contenuti

Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation

Abstract

Support