ChatPaper.aiChatPaper

Be-Your-Outpainter: Dominando a Extrapolação de Vídeo por meio de Adaptação Específica à Entrada

Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation

March 20, 2024
Autores: Fu-Yun Wang, Xiaoshi Wu, Zhaoyang Huang, Xiaoyu Shi, Dazhong Shen, Guanglu Song, Yu Liu, Hongsheng Li
cs.AI

Resumo

A expansão de vídeo (video outpainting) é uma tarefa desafiadora, que visa gerar conteúdo de vídeo fora da janela de visualização do vídeo de entrada, mantendo a consistência inter-quadros e intra-quadros. Os métodos existentes falham em termos de qualidade de geração ou flexibilidade. Apresentamos o MOTIA (Mastering Video Outpainting Through Input-Specific Adaptation), um pipeline baseado em difusão que aproveita tanto os padrões intrínsecos específicos dos dados do vídeo de origem quanto o conhecimento prévio de geração de imagens/vídeos para uma expansão eficaz. O MOTIA compreende duas fases principais: adaptação específica à entrada e expansão consciente de padrões. A fase de adaptação específica à entrada envolve a realização de um aprendizado eficiente e eficaz de pseudo-expansão no vídeo de origem de tomada única. Esse processo incentiva o modelo a identificar e aprender os padrões dentro do vídeo de origem, além de preencher a lacuna entre os processos generativos padrão e a expansão. A fase subsequente, de expansão consciente de padrões, é dedicada à generalização desses padrões aprendidos para gerar resultados de expansão. Estratégias adicionais, incluindo inserção espacialmente consciente e viagem de ruído, são propostas para melhor aproveitar o conhecimento prévio generativo do modelo de difusão e os padrões de vídeo adquiridos a partir dos vídeos de origem. Avaliações extensas destacam a superioridade do MOTIA, superando os métodos state-of-the-art existentes em benchmarks amplamente reconhecidos. Vale ressaltar que esses avanços são alcançados sem a necessidade de ajustes extensos e específicos para a tarefa.
English
Video outpainting is a challenging task, aiming at generating video content outside the viewport of the input video while maintaining inter-frame and intra-frame consistency. Existing methods fall short in either generation quality or flexibility. We introduce MOTIA Mastering Video Outpainting Through Input-Specific Adaptation, a diffusion-based pipeline that leverages both the intrinsic data-specific patterns of the source video and the image/video generative prior for effective outpainting. MOTIA comprises two main phases: input-specific adaptation and pattern-aware outpainting. The input-specific adaptation phase involves conducting efficient and effective pseudo outpainting learning on the single-shot source video. This process encourages the model to identify and learn patterns within the source video, as well as bridging the gap between standard generative processes and outpainting. The subsequent phase, pattern-aware outpainting, is dedicated to the generalization of these learned patterns to generate outpainting outcomes. Additional strategies including spatial-aware insertion and noise travel are proposed to better leverage the diffusion model's generative prior and the acquired video patterns from source videos. Extensive evaluations underscore MOTIA's superiority, outperforming existing state-of-the-art methods in widely recognized benchmarks. Notably, these advancements are achieved without necessitating extensive, task-specific tuning.
PDF112February 7, 2026