DiffuEraser : Un modèle de diffusion pour l'inpainting vidéo
DiffuEraser: A Diffusion Model for Video Inpainting
January 17, 2025
Auteurs: Xiaowen Li, Haolan Xue, Peiran Ren, Liefeng Bo
cs.AI
Résumé
Les algorithmes récents d'inpainting vidéo intègrent la propagation des pixels basée sur le flux avec la génération basée sur les transformers pour exploiter le flux optique afin de restaurer les textures et les objets en utilisant les informations des images voisines, tout en complétant les régions masquées à l'aide des Transformers visuels. Cependant, ces approches rencontrent souvent des problèmes de flou et d'incohérences temporelles lorsqu'elles traitent de grandes zones masquées, soulignant ainsi le besoin de modèles aux capacités génératives améliorées. Récemment, les modèles de diffusion ont émergé comme une technique de premier plan dans la génération d'images et de vidéos en raison de leurs performances impressionnantes. Dans cet article, nous présentons DiffuEraser, un modèle d'inpainting vidéo basé sur une diffusion stable, conçu pour remplir les régions masquées avec plus de détails et des structures plus cohérentes. Nous incorporons des informations antérieures pour fournir une initialisation et une conditionnement faible, ce qui aide à atténuer les artefacts bruyants et à supprimer les hallucinations. De plus, pour améliorer la cohérence temporelle lors de l'inférence sur de longues séquences, nous élargissons les champs réceptifs temporels à la fois du modèle antérieur et de DiffuEraser, et renforçons davantage la cohérence en exploitant la propriété de lissage temporel des modèles de diffusion vidéo. Les résultats expérimentaux démontrent que notre méthode proposée surpasse les techniques de pointe à la fois en termes de complétude du contenu et de cohérence temporelle tout en maintenant une efficacité acceptable.
English
Recent video inpainting algorithms integrate flow-based pixel propagation
with transformer-based generation to leverage optical flow for restoring
textures and objects using information from neighboring frames, while
completing masked regions through visual Transformers. However, these
approaches often encounter blurring and temporal inconsistencies when dealing
with large masks, highlighting the need for models with enhanced generative
capabilities. Recently, diffusion models have emerged as a prominent technique
in image and video generation due to their impressive performance. In this
paper, we introduce DiffuEraser, a video inpainting model based on stable
diffusion, designed to fill masked regions with greater details and more
coherent structures. We incorporate prior information to provide initialization
and weak conditioning,which helps mitigate noisy artifacts and suppress
hallucinations. Additionally, to improve temporal consistency during
long-sequence inference, we expand the temporal receptive fields of both the
prior model and DiffuEraser, and further enhance consistency by leveraging the
temporal smoothing property of Video Diffusion Models. Experimental results
demonstrate that our proposed method outperforms state-of-the-art techniques in
both content completeness and temporal consistency while maintaining acceptable
efficiency.Summary
AI-Generated Summary