ChatPaper.aiChatPaper

Siga-Sua-Tela: Preenchimento de Vídeo de Alta Resolução com Geração de Conteúdo Extensiva

Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation

September 2, 2024
Autores: Qihua Chen, Yue Ma, Hongfa Wang, Junkun Yuan, Wenzhe Zhao, Qi Tian, Hongmei Wang, Shaobo Min, Qifeng Chen, Wei Liu
cs.AI

Resumo

Este artigo explora a geração de vídeo de alta resolução com extensa geração de conteúdo. Apontamos questões comuns enfrentadas por métodos existentes ao tentar gerar vídeos extensos: a geração de conteúdo de baixa qualidade e limitações impostas pela memória da GPU. Para enfrentar esses desafios, propomos um método baseado em difusão chamado Siga-Seu-Canvas. Ele se baseia em dois projetos principais. Primeiro, em vez de empregar a prática comum de outpainting "single-shot", distribuímos a tarefa por janelas espaciais e as mesclamos de forma contínua. Isso nos permite gerar vídeos de qualquer tamanho e resolução sem sermos limitados pela memória da GPU. Segundo, o vídeo de origem e sua relação posicional relativa são injetados no processo de geração de cada janela. Isso faz com que o layout espacial gerado em cada janela harmonize com o vídeo de origem. O acoplamento desses dois projetos nos permite gerar vídeos de outpainting de alta resolução com conteúdo rico, mantendo consistência espacial e temporal. Siga-Seu-Canvas se destaca no outpainting de vídeo em grande escala, por exemplo, de 512X512 para 1152X2048 (9X), produzindo resultados de alta qualidade e esteticamente agradáveis. Ele alcança os melhores resultados quantitativos em várias configurações de resolução e escala. O código está disponível em https://github.com/mayuelala/FollowYourCanvas
English
This paper explores higher-resolution video outpainting with extensive content generation. We point out common issues faced by existing methods when attempting to largely outpaint videos: the generation of low-quality content and limitations imposed by GPU memory. To address these challenges, we propose a diffusion-based method called Follow-Your-Canvas. It builds upon two core designs. First, instead of employing the common practice of "single-shot" outpainting, we distribute the task across spatial windows and seamlessly merge them. It allows us to outpaint videos of any size and resolution without being constrained by GPU memory. Second, the source video and its relative positional relation are injected into the generation process of each window. It makes the generated spatial layout within each window harmonize with the source video. Coupling with these two designs enables us to generate higher-resolution outpainting videos with rich content while keeping spatial and temporal consistency. Follow-Your-Canvas excels in large-scale video outpainting, e.g., from 512X512 to 1152X2048 (9X), while producing high-quality and aesthetically pleasing results. It achieves the best quantitative results across various resolution and scale setups. The code is released on https://github.com/mayuelala/FollowYourCanvas

Summary

AI-Generated Summary

PDF62November 16, 2024