ObjectDrop: Bootstrapping von Gegenfaktoren für fotorealistische Objektentfernung und -einfügung

papers.abstract

Diffusionsmodelle haben die Bildbearbeitung revolutioniert, generieren jedoch oft Bilder, die physikalische Gesetze verletzen, insbesondere die Auswirkungen von Objekten auf die Szene, z.B. Verdeckungen, Schatten und Spiegelungen. Durch die Analyse der Einschränkungen selbstüberwachter Ansätze schlagen wir eine praktische Lösung vor, die auf einem kontrafaktischen Datensatz basiert. Unser Ansatz besteht darin, eine Szene vor und nach dem Entfernen eines einzelnen Objekts zu erfassen, wobei andere Änderungen minimiert werden. Durch Feinabstimmung eines Diffusionsmodells auf diesem Datensatz können wir nicht nur Objekte entfernen, sondern auch deren Auswirkungen auf die Szene. Allerdings stellen wir fest, dass die Anwendung dieses Ansatzes für fotorealistische Objekteinfügungen einen unpraktisch großen Datensatz erfordert. Um diese Herausforderung anzugehen, schlagen wir Bootstrap-Überwachung vor; indem wir unser Objektentfernungsmodell, das auf einem kleinen kontrafaktischen Datensatz trainiert ist, nutzen, erweitern wir diesen Datensatz synthetisch erheblich. Unser Ansatz übertrifft signifikant frühere Methoden bei der fotorealistischen Objektentfernung und -einfügung, insbesondere bei der Modellierung der Auswirkungen von Objekten auf die Szene.

English

Diffusion models have revolutionized image editing but often generate images that violate physical laws, particularly the effects of objects on the scene, e.g., occlusions, shadows, and reflections. By analyzing the limitations of self-supervised approaches, we propose a practical solution centered on a counterfactual dataset. Our method involves capturing a scene before and after removing a single object, while minimizing other changes. By fine-tuning a diffusion model on this dataset, we are able to not only remove objects but also their effects on the scene. However, we find that applying this approach for photorealistic object insertion requires an impractically large dataset. To tackle this challenge, we propose bootstrap supervision; leveraging our object removal model trained on a small counterfactual dataset, we synthetically expand this dataset considerably. Our approach significantly outperforms prior methods in photorealistic object removal and insertion, particularly at modeling the effects of objects on the scene.

ObjectDrop: Bootstrapping von Gegenfaktoren für fotorealistische Objektentfernung und -einfügung

ObjectDrop: Bootstrapping Counterfactuals for Photorealistic Object Removal and Insertion

papers.abstract

Support