Suivez-Votre-Toile : Restauration de Vidéo Haute Résolution avec Génération de Contenu Étendue
Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation
September 2, 2024
Auteurs: Qihua Chen, Yue Ma, Hongfa Wang, Junkun Yuan, Wenzhe Zhao, Qi Tian, Hongmei Wang, Shaobo Min, Qifeng Chen, Wei Liu
cs.AI
Résumé
Cet article explore la génération de contenu vidéo à plus haute résolution avec un outillage étendu. Nous soulignons les problèmes courants rencontrés par les méthodes existantes lorsqu'elles tentent de générer largement des vidéos : la production de contenu de qualité médiocre et les limitations imposées par la mémoire GPU. Pour relever ces défis, nous proposons une méthode basée sur la diffusion appelée Follow-Your-Canvas. Elle repose sur deux conceptions fondamentales. Tout d'abord, au lieu d'adopter la pratique courante de l'outillage "à prise unique", nous répartissons la tâche à travers des fenêtres spatiales et les fusionnons de manière transparente. Cela nous permet de générer des vidéos de toute taille et résolution sans être limités par la mémoire GPU. Ensuite, la vidéo source et sa relation positionnelle relative sont injectées dans le processus de génération de chaque fenêtre. Cela permet à la disposition spatiale générée dans chaque fenêtre de s'harmoniser avec la vidéo source. La combinaison de ces deux conceptions nous permet de générer des vidéos d'outillage à plus haute résolution avec un contenu riche tout en maintenant une cohérence spatiale et temporelle. Follow-Your-Canvas excelle dans l'outillage vidéo à grande échelle, par exemple, de 512X512 à 1152X2048 (9X), tout en produisant des résultats de haute qualité et esthétiquement plaisants. Elle obtient les meilleurs résultats quantitatifs dans diverses configurations de résolution et d'échelle. Le code est disponible sur https://github.com/mayuelala/FollowYourCanvas
English
This paper explores higher-resolution video outpainting with extensive
content generation. We point out common issues faced by existing methods when
attempting to largely outpaint videos: the generation of low-quality content
and limitations imposed by GPU memory. To address these challenges, we propose
a diffusion-based method called Follow-Your-Canvas. It builds upon two
core designs. First, instead of employing the common practice of "single-shot"
outpainting, we distribute the task across spatial windows and seamlessly merge
them. It allows us to outpaint videos of any size and resolution without being
constrained by GPU memory. Second, the source video and its relative positional
relation are injected into the generation process of each window. It makes the
generated spatial layout within each window harmonize with the source video.
Coupling with these two designs enables us to generate higher-resolution
outpainting videos with rich content while keeping spatial and temporal
consistency. Follow-Your-Canvas excels in large-scale video outpainting, e.g.,
from 512X512 to 1152X2048 (9X), while producing high-quality and aesthetically
pleasing results. It achieves the best quantitative results across various
resolution and scale setups. The code is released on
https://github.com/mayuelala/FollowYourCanvasSummary
AI-Generated Summary