ChatPaper.aiChatPaper

DiffuEraser: Un modelo de difusión para la restauración de videos

DiffuEraser: A Diffusion Model for Video Inpainting

January 17, 2025
Autores: Xiaowen Li, Haolan Xue, Peiran Ren, Liefeng Bo
cs.AI

Resumen

Los algoritmos recientes de rellenado de video integran la propagación de píxeles basada en flujo con generación basada en transformadores para aprovechar el flujo óptico en la restauración de texturas y objetos utilizando información de fotogramas vecinos, al mismo tiempo que completan regiones enmascaradas a través de Transformadores visuales. Sin embargo, estos enfoques a menudo se enfrentan a problemas de difuminación e inconsistencias temporales al tratar con máscaras grandes, resaltando la necesidad de modelos con capacidades generativas mejoradas. Recientemente, los modelos de difusión han surgido como una técnica prominente en la generación de imágenes y videos debido a su impresionante rendimiento. En este artículo, presentamos DiffuEraser, un modelo de rellenado de video basado en difusión estable, diseñado para completar regiones enmascaradas con más detalles y estructuras más coherentes. Incorporamos información previa para proporcionar inicialización y condicionamiento débil, lo que ayuda a mitigar artefactos ruidosos y suprimir alucinaciones. Además, para mejorar la consistencia temporal durante la inferencia de secuencias largas, ampliamos los campos receptivos temporales tanto del modelo previo como de DiffuEraser, y mejoramos aún más la consistencia aprovechando la propiedad de suavizado temporal de los Modelos de Difusión de Video. Los resultados experimentales demuestran que nuestro método propuesto supera a las técnicas de vanguardia tanto en la completitud del contenido como en la consistencia temporal, manteniendo una eficiencia aceptable.
English
Recent video inpainting algorithms integrate flow-based pixel propagation with transformer-based generation to leverage optical flow for restoring textures and objects using information from neighboring frames, while completing masked regions through visual Transformers. However, these approaches often encounter blurring and temporal inconsistencies when dealing with large masks, highlighting the need for models with enhanced generative capabilities. Recently, diffusion models have emerged as a prominent technique in image and video generation due to their impressive performance. In this paper, we introduce DiffuEraser, a video inpainting model based on stable diffusion, designed to fill masked regions with greater details and more coherent structures. We incorporate prior information to provide initialization and weak conditioning,which helps mitigate noisy artifacts and suppress hallucinations. Additionally, to improve temporal consistency during long-sequence inference, we expand the temporal receptive fields of both the prior model and DiffuEraser, and further enhance consistency by leveraging the temporal smoothing property of Video Diffusion Models. Experimental results demonstrate that our proposed method outperforms state-of-the-art techniques in both content completeness and temporal consistency while maintaining acceptable efficiency.

Summary

AI-Generated Summary

PDF142January 24, 2025