ChatPaper.aiChatPaper

DiffuEraser: Um Modelo de Difusão para Preenchimento de Vídeo

DiffuEraser: A Diffusion Model for Video Inpainting

January 17, 2025
Autores: Xiaowen Li, Haolan Xue, Peiran Ren, Liefeng Bo
cs.AI

Resumo

Algoritmos recentes de inpainting de vídeos integram propagação de pixels baseada em fluxo com geração baseada em transformadores para aproveitar o fluxo óptico na restauração de texturas e objetos usando informações de quadros vizinhos, ao mesmo tempo que completam regiões mascaradas por meio de Transformadores visuais. No entanto, essas abordagens frequentemente encontram desfoque e inconsistências temporais ao lidar com máscaras grandes, destacando a necessidade de modelos com capacidades generativas aprimoradas. Recentemente, modelos de difusão surgiram como uma técnica proeminente na geração de imagens e vídeos devido ao seu desempenho impressionante. Neste artigo, apresentamos o DiffuEraser, um modelo de inpainting de vídeo baseado em difusão estável, projetado para preencher regiões mascaradas com mais detalhes e estruturas mais coerentes. Incorporamos informações prévias para fornecer inicialização e condicionamento fraco, o que ajuda a mitigar artefatos ruidosos e suprimir alucinações. Além disso, para melhorar a consistência temporal durante inferências de sequências longas, expandimos os campos receptivos temporais tanto do modelo prévio quanto do DiffuEraser, e aprimoramos ainda mais a consistência aproveitando a propriedade de suavização temporal dos Modelos de Difusão de Vídeo. Resultados experimentais demonstram que nosso método proposto supera as técnicas de ponta tanto em completude de conteúdo quanto em consistência temporal, mantendo uma eficiência aceitável.
English
Recent video inpainting algorithms integrate flow-based pixel propagation with transformer-based generation to leverage optical flow for restoring textures and objects using information from neighboring frames, while completing masked regions through visual Transformers. However, these approaches often encounter blurring and temporal inconsistencies when dealing with large masks, highlighting the need for models with enhanced generative capabilities. Recently, diffusion models have emerged as a prominent technique in image and video generation due to their impressive performance. In this paper, we introduce DiffuEraser, a video inpainting model based on stable diffusion, designed to fill masked regions with greater details and more coherent structures. We incorporate prior information to provide initialization and weak conditioning,which helps mitigate noisy artifacts and suppress hallucinations. Additionally, to improve temporal consistency during long-sequence inference, we expand the temporal receptive fields of both the prior model and DiffuEraser, and further enhance consistency by leveraging the temporal smoothing property of Video Diffusion Models. Experimental results demonstrate that our proposed method outperforms state-of-the-art techniques in both content completeness and temporal consistency while maintaining acceptable efficiency.

Summary

AI-Generated Summary

PDF142January 24, 2025