ObjectDrop: Avvio di controfattuali per la rimozione e l'inserimento fotorealistico di oggetti
ObjectDrop: Bootstrapping Counterfactuals for Photorealistic Object Removal and Insertion
March 27, 2024
Autori: Daniel Winter, Matan Cohen, Shlomi Fruchter, Yael Pritch, Alex Rav-Acha, Yedid Hoshen
cs.AI
Abstract
I modelli di diffusione hanno rivoluzionato l'editing delle immagini, ma spesso generano immagini che violano le leggi fisiche, in particolare gli effetti degli oggetti sulla scena, come occlusioni, ombre e riflessi. Analizzando i limiti degli approcci auto-supervisionati, proponiamo una soluzione pratica incentrata su un dataset controfattuale. Il nostro metodo prevede la cattura di una scena prima e dopo la rimozione di un singolo oggetto, minimizzando altri cambiamenti. Ottimizzando un modello di diffusione su questo dataset, siamo in grado non solo di rimuovere gli oggetti ma anche i loro effetti sulla scena. Tuttavia, scopriamo che applicare questo approccio per l'inserimento fotorealistico di oggetti richiede un dataset impraticabilmente grande. Per affrontare questa sfida, proponiamo una supervisione bootstrap; sfruttando il nostro modello di rimozione degli oggetti addestrato su un piccolo dataset controfattuale, espandiamo sinteticamente questo dataset in modo significativo. Il nostro approccio supera notevolmente i metodi precedenti nella rimozione e nell'inserimento fotorealistico di oggetti, in particolare nella modellazione degli effetti degli oggetti sulla scena.
English
Diffusion models have revolutionized image editing but often generate images
that violate physical laws, particularly the effects of objects on the scene,
e.g., occlusions, shadows, and reflections. By analyzing the limitations of
self-supervised approaches, we propose a practical solution centered on a
counterfactual dataset. Our method involves capturing a scene before and
after removing a single object, while minimizing other changes. By fine-tuning
a diffusion model on this dataset, we are able to not only remove objects but
also their effects on the scene. However, we find that applying this approach
for photorealistic object insertion requires an impractically large dataset. To
tackle this challenge, we propose bootstrap supervision; leveraging our object
removal model trained on a small counterfactual dataset, we synthetically
expand this dataset considerably. Our approach significantly outperforms prior
methods in photorealistic object removal and insertion, particularly at
modeling the effects of objects on the scene.