ObjectDrop: Bootstrapping van tegenfeitelijke scenario's voor fotorealistische objectverwijdering en -invoeging
ObjectDrop: Bootstrapping Counterfactuals for Photorealistic Object Removal and Insertion
March 27, 2024
Auteurs: Daniel Winter, Matan Cohen, Shlomi Fruchter, Yael Pritch, Alex Rav-Acha, Yedid Hoshen
cs.AI
Samenvatting
Diffusiemodellen hebben een revolutie teweeggebracht in beeldbewerking, maar genereren vaak afbeeldingen die de natuurwetten schenden, met name de effecten van objecten op de scène, zoals occlusies, schaduwen en reflecties. Door de beperkingen van zelfgesuperviseerde benaderingen te analyseren, stellen we een praktische oplossing voor die draait om een contrafeitelijke dataset. Onze methode omvat het vastleggen van een scène voor en na het verwijderen van een enkel object, waarbij andere veranderingen tot een minimum worden beperkt. Door een diffusiemodel te finetunen op deze dataset, kunnen we niet alleen objecten verwijderen, maar ook hun effecten op de scène. We ontdekken echter dat het toepassen van deze aanpak voor fotorealistische objectinvoeging een onpraktisch grote dataset vereist. Om deze uitdaging aan te pakken, stellen we bootstrap-supervisie voor; door gebruik te maken van ons objectverwijderingsmodel dat is getraind op een kleine contrafeitelijke dataset, breiden we deze dataset synthetisch aanzienlijk uit. Onze aanpak overtreft eerdere methoden aanzienlijk in fotorealistische objectverwijdering en -invoeging, met name in het modelleren van de effecten van objecten op de scène.
English
Diffusion models have revolutionized image editing but often generate images
that violate physical laws, particularly the effects of objects on the scene,
e.g., occlusions, shadows, and reflections. By analyzing the limitations of
self-supervised approaches, we propose a practical solution centered on a
counterfactual dataset. Our method involves capturing a scene before and
after removing a single object, while minimizing other changes. By fine-tuning
a diffusion model on this dataset, we are able to not only remove objects but
also their effects on the scene. However, we find that applying this approach
for photorealistic object insertion requires an impractically large dataset. To
tackle this challenge, we propose bootstrap supervision; leveraging our object
removal model trained on a small counterfactual dataset, we synthetically
expand this dataset considerably. Our approach significantly outperforms prior
methods in photorealistic object removal and insertion, particularly at
modeling the effects of objects on the scene.