Suivez-Votre-Toile : Restauration de Vidéo Haute Résolution avec Génération de Contenu Étendue

Résumé

Cet article explore la génération de contenu vidéo à plus haute résolution avec un outillage étendu. Nous soulignons les problèmes courants rencontrés par les méthodes existantes lorsqu'elles tentent de générer largement des vidéos : la production de contenu de qualité médiocre et les limitations imposées par la mémoire GPU. Pour relever ces défis, nous proposons une méthode basée sur la diffusion appelée Follow-Your-Canvas. Elle repose sur deux conceptions fondamentales. Tout d'abord, au lieu d'adopter la pratique courante de l'outillage "à prise unique", nous répartissons la tâche à travers des fenêtres spatiales et les fusionnons de manière transparente. Cela nous permet de générer des vidéos de toute taille et résolution sans être limités par la mémoire GPU. Ensuite, la vidéo source et sa relation positionnelle relative sont injectées dans le processus de génération de chaque fenêtre. Cela permet à la disposition spatiale générée dans chaque fenêtre de s'harmoniser avec la vidéo source. La combinaison de ces deux conceptions nous permet de générer des vidéos d'outillage à plus haute résolution avec un contenu riche tout en maintenant une cohérence spatiale et temporelle. Follow-Your-Canvas excelle dans l'outillage vidéo à grande échelle, par exemple, de 512X512 à 1152X2048 (9X), tout en produisant des résultats de haute qualité et esthétiquement plaisants. Elle obtient les meilleurs résultats quantitatifs dans diverses configurations de résolution et d'échelle. Le code est disponible sur https://github.com/mayuelala/FollowYourCanvas

English

This paper explores higher-resolution video outpainting with extensive content generation. We point out common issues faced by existing methods when attempting to largely outpaint videos: the generation of low-quality content and limitations imposed by GPU memory. To address these challenges, we propose a diffusion-based method called Follow-Your-Canvas. It builds upon two core designs. First, instead of employing the common practice of "single-shot" outpainting, we distribute the task across spatial windows and seamlessly merge them. It allows us to outpaint videos of any size and resolution without being constrained by GPU memory. Second, the source video and its relative positional relation are injected into the generation process of each window. It makes the generated spatial layout within each window harmonize with the source video. Coupling with these two designs enables us to generate higher-resolution outpainting videos with rich content while keeping spatial and temporal consistency. Follow-Your-Canvas excels in large-scale video outpainting, e.g., from 512X512 to 1152X2048 (9X), while producing high-quality and aesthetically pleasing results. It achieves the best quantitative results across various resolution and scale setups. The code is released on https://github.com/mayuelala/FollowYourCanvas

Suivez-Votre-Toile : Restauration de Vidéo Haute Résolution avec Génération de Contenu Étendue

Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation

Résumé

Support