DiffuEraser: Un modello di diffusione per il video inpainting
DiffuEraser: A Diffusion Model for Video Inpainting
January 17, 2025
Autori: Xiaowen Li, Haolan Xue, Peiran Ren, Liefeng Bo
cs.AI
Abstract
Gli algoritmi recenti di inpainting video integrano la propagazione dei pixel basata sul flusso con la generazione basata su trasformatori per sfruttare il flusso ottico per ripristinare texture e oggetti utilizzando informazioni dai frame vicini, completando le regioni mascherate attraverso i Trasformatori visivi. Tuttavia, questi approcci spesso si scontrano con sfocature e inconsistenze temporali quando si affrontano maschere di grandi dimensioni, evidenziando la necessità di modelli con capacità generative potenziate. Di recente, i modelli di diffusione sono emersi come una tecnica prominente nella generazione di immagini e video grazie alle loro prestazioni impressionanti. In questo articolo, presentiamo DiffuEraser, un modello di inpainting video basato sulla diffusione stabile, progettato per riempire regioni mascherate con maggiori dettagli e strutture più coerenti. Incorporiamo informazioni precedenti per fornire inizializzazione e condizionamento debole, che aiuta a mitigare artefatti rumorosi e a sopprimere allucinazioni. Inoltre, per migliorare la coerenza temporale durante l'inferenza a lunga sequenza, espandiamo i campi recettivi temporali sia del modello precedente che di DiffuEraser, e miglioriamo ulteriormente la coerenza sfruttando la proprietà di smoothing temporale dei Modelli di Diffusione Video. I risultati sperimentali dimostrano che il nostro metodo proposto supera le tecniche all'avanguardia sia per completezza del contenuto che per coerenza temporale, mantenendo nel contempo un'efficienza accettabile.
English
Recent video inpainting algorithms integrate flow-based pixel propagation
with transformer-based generation to leverage optical flow for restoring
textures and objects using information from neighboring frames, while
completing masked regions through visual Transformers. However, these
approaches often encounter blurring and temporal inconsistencies when dealing
with large masks, highlighting the need for models with enhanced generative
capabilities. Recently, diffusion models have emerged as a prominent technique
in image and video generation due to their impressive performance. In this
paper, we introduce DiffuEraser, a video inpainting model based on stable
diffusion, designed to fill masked regions with greater details and more
coherent structures. We incorporate prior information to provide initialization
and weak conditioning,which helps mitigate noisy artifacts and suppress
hallucinations. Additionally, to improve temporal consistency during
long-sequence inference, we expand the temporal receptive fields of both the
prior model and DiffuEraser, and further enhance consistency by leveraging the
temporal smoothing property of Video Diffusion Models. Experimental results
demonstrate that our proposed method outperforms state-of-the-art techniques in
both content completeness and temporal consistency while maintaining acceptable
efficiency.Summary
AI-Generated Summary