Follow-Your-Canvas: Video-Uitbreiding met Hoge Resolutie en Uitgebreide Contentgeneratie
Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation
September 2, 2024
Auteurs: Qihua Chen, Yue Ma, Hongfa Wang, Junkun Yuan, Wenzhe Zhao, Qi Tian, Hongmei Wang, Shaobo Min, Qifeng Chen, Wei Liu
cs.AI
Samenvatting
Dit artikel onderzoekt het uitbreiden van video's met hogere resolutie en uitgebreide inhoudsgeneratie. We wijzen op veelvoorkomende problemen waarmee bestaande methoden worden geconfronteerd bij het grootschalig uitbreiden van video's: het genereren van inhoud van lage kwaliteit en beperkingen opgelegd door GPU-geheugen. Om deze uitdagingen aan te pakken, stellen we een op diffusie gebaseerde methode voor genaamd Follow-Your-Canvas. Deze methode bouwt voort op twee kernontwerpen. Ten eerste, in plaats van de gebruikelijke praktijk van "single-shot" uitbreiding te gebruiken, verdelen we de taak over ruimtelijke vensters en voegen deze naadloos samen. Hierdoor kunnen we video's van elke grootte en resolutie uitbreiden zonder beperkt te worden door GPU-geheugen. Ten tweede worden de bronvideo en de relatieve positionele relatie ervan geïnjecteerd in het generatieproces van elk venster. Dit zorgt ervoor dat het gegenereerde ruimtelijke lay-out binnen elk venster harmonieert met de bronvideo. De combinatie van deze twee ontwerpen stelt ons in staat om video's met hogere resolutie en rijke inhoud te genereren, terwijl ruimtelijke en temporele consistentie behouden blijft. Follow-Your-Canvas blinkt uit in grootschalige video-uitbreiding, bijvoorbeeld van 512x512 naar 1152x2048 (9x), en produceert hoogwaardige en esthetisch aantrekkelijke resultaten. Het behaalt de beste kwantitatieve resultaten in verschillende resolutie- en schaalopstellingen. De code is vrijgegeven op https://github.com/mayuelala/FollowYourCanvas.
English
This paper explores higher-resolution video outpainting with extensive
content generation. We point out common issues faced by existing methods when
attempting to largely outpaint videos: the generation of low-quality content
and limitations imposed by GPU memory. To address these challenges, we propose
a diffusion-based method called Follow-Your-Canvas. It builds upon two
core designs. First, instead of employing the common practice of "single-shot"
outpainting, we distribute the task across spatial windows and seamlessly merge
them. It allows us to outpaint videos of any size and resolution without being
constrained by GPU memory. Second, the source video and its relative positional
relation are injected into the generation process of each window. It makes the
generated spatial layout within each window harmonize with the source video.
Coupling with these two designs enables us to generate higher-resolution
outpainting videos with rich content while keeping spatial and temporal
consistency. Follow-Your-Canvas excels in large-scale video outpainting, e.g.,
from 512X512 to 1152X2048 (9X), while producing high-quality and aesthetically
pleasing results. It achieves the best quantitative results across various
resolution and scale setups. The code is released on
https://github.com/mayuelala/FollowYourCanvasSummary
AI-Generated Summary