ObjectDrop: Bootstrapping von Gegenfaktoren für fotorealistische Objektentfernung und -einfügung
ObjectDrop: Bootstrapping Counterfactuals for Photorealistic Object Removal and Insertion
March 27, 2024
Autoren: Daniel Winter, Matan Cohen, Shlomi Fruchter, Yael Pritch, Alex Rav-Acha, Yedid Hoshen
cs.AI
Zusammenfassung
Diffusionsmodelle haben die Bildbearbeitung revolutioniert, generieren jedoch oft Bilder, die physikalische Gesetze verletzen, insbesondere die Auswirkungen von Objekten auf die Szene, z.B. Verdeckungen, Schatten und Spiegelungen. Durch die Analyse der Einschränkungen selbstüberwachter Ansätze schlagen wir eine praktische Lösung vor, die auf einem kontrafaktischen Datensatz basiert. Unser Ansatz besteht darin, eine Szene vor und nach dem Entfernen eines einzelnen Objekts zu erfassen, wobei andere Änderungen minimiert werden. Durch Feinabstimmung eines Diffusionsmodells auf diesem Datensatz können wir nicht nur Objekte entfernen, sondern auch deren Auswirkungen auf die Szene. Allerdings stellen wir fest, dass die Anwendung dieses Ansatzes für fotorealistische Objekteinfügungen einen unpraktisch großen Datensatz erfordert. Um diese Herausforderung anzugehen, schlagen wir Bootstrap-Überwachung vor; indem wir unser Objektentfernungsmodell, das auf einem kleinen kontrafaktischen Datensatz trainiert ist, nutzen, erweitern wir diesen Datensatz synthetisch erheblich. Unser Ansatz übertrifft signifikant frühere Methoden bei der fotorealistischen Objektentfernung und -einfügung, insbesondere bei der Modellierung der Auswirkungen von Objekten auf die Szene.
English
Diffusion models have revolutionized image editing but often generate images
that violate physical laws, particularly the effects of objects on the scene,
e.g., occlusions, shadows, and reflections. By analyzing the limitations of
self-supervised approaches, we propose a practical solution centered on a
counterfactual dataset. Our method involves capturing a scene before and
after removing a single object, while minimizing other changes. By fine-tuning
a diffusion model on this dataset, we are able to not only remove objects but
also their effects on the scene. However, we find that applying this approach
for photorealistic object insertion requires an impractically large dataset. To
tackle this challenge, we propose bootstrap supervision; leveraging our object
removal model trained on a small counterfactual dataset, we synthetically
expand this dataset considerably. Our approach significantly outperforms prior
methods in photorealistic object removal and insertion, particularly at
modeling the effects of objects on the scene.Summary
AI-Generated Summary