ChatPaper.aiChatPaper

Seguir-Tu-Lienzo: Generación de Contenido Extensivo para Rellenar Videos de Alta Resolución

Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation

September 2, 2024
Autores: Qihua Chen, Yue Ma, Hongfa Wang, Junkun Yuan, Wenzhe Zhao, Qi Tian, Hongmei Wang, Shaobo Min, Qifeng Chen, Wei Liu
cs.AI

Resumen

Este documento explora la generación de contenido extensivo en la extrapolación de videos de alta resolución. Se señalan problemas comunes enfrentados por los métodos existentes al intentar extrapolaciones extensas de videos: la generación de contenido de baja calidad y las limitaciones impuestas por la memoria de la GPU. Para abordar estos desafíos, proponemos un método basado en difusión llamado Sigue-Tu-Lienzo. Se basa en dos diseños principales. En primer lugar, en lugar de emplear la práctica común de extrapolación "de un solo disparo", distribuimos la tarea en ventanas espaciales y las fusionamos de manera fluida. Esto nos permite realizar extrapolaciones de videos de cualquier tamaño y resolución sin verse limitados por la memoria de la GPU. En segundo lugar, el video fuente y su relación posicional relativa se inyectan en el proceso de generación de cada ventana. Esto hace que el diseño espacial generado dentro de cada ventana armonice con el video fuente. La combinación de estos dos diseños nos permite generar videos de extrapolación de alta resolución con contenido rico manteniendo coherencia espacial y temporal. Sigue-Tu-Lienzo destaca en la extrapolación de videos a gran escala, por ejemplo, desde 512X512 hasta 1152X2048 (9X), produciendo resultados de alta calidad y estéticamente agradables. Obtiene los mejores resultados cuantitativos en diversas configuraciones de resolución y escala. El código se encuentra disponible en https://github.com/mayuelala/FollowYourCanvas
English
This paper explores higher-resolution video outpainting with extensive content generation. We point out common issues faced by existing methods when attempting to largely outpaint videos: the generation of low-quality content and limitations imposed by GPU memory. To address these challenges, we propose a diffusion-based method called Follow-Your-Canvas. It builds upon two core designs. First, instead of employing the common practice of "single-shot" outpainting, we distribute the task across spatial windows and seamlessly merge them. It allows us to outpaint videos of any size and resolution without being constrained by GPU memory. Second, the source video and its relative positional relation are injected into the generation process of each window. It makes the generated spatial layout within each window harmonize with the source video. Coupling with these two designs enables us to generate higher-resolution outpainting videos with rich content while keeping spatial and temporal consistency. Follow-Your-Canvas excels in large-scale video outpainting, e.g., from 512X512 to 1152X2048 (9X), while producing high-quality and aesthetically pleasing results. It achieves the best quantitative results across various resolution and scale setups. The code is released on https://github.com/mayuelala/FollowYourCanvas

Summary

AI-Generated Summary

PDF62November 16, 2024