ObjectDrop : Amorçage de contrefactuels pour la suppression et l'insertion photoréalistes d'objets
ObjectDrop: Bootstrapping Counterfactuals for Photorealistic Object Removal and Insertion
March 27, 2024
Auteurs: Daniel Winter, Matan Cohen, Shlomi Fruchter, Yael Pritch, Alex Rav-Acha, Yedid Hoshen
cs.AI
Résumé
Les modèles de diffusion ont révolutionné l'édition d'images, mais génèrent souvent des images qui violent les lois physiques, en particulier les effets des objets sur la scène, comme les occlusions, les ombres et les réflexions. En analysant les limites des approches auto-supervisées, nous proposons une solution pratique centrée sur un ensemble de données contrefactuelles. Notre méthode consiste à capturer une scène avant et après la suppression d'un seul objet, tout en minimisant les autres changements. En affinant un modèle de diffusion sur cet ensemble de données, nous sommes capables non seulement de supprimer des objets, mais aussi leurs effets sur la scène. Cependant, nous constatons que l'application de cette approche pour l'insertion photoréaliste d'objets nécessite un ensemble de données impraticablement volumineux. Pour relever ce défi, nous proposons une supervision par amorçage ; en exploitant notre modèle de suppression d'objets entraîné sur un petit ensemble de données contrefactuelles, nous étendons synthétiquement cet ensemble de manière significative. Notre approche surpasse nettement les méthodes antérieures en matière de suppression et d'insertion photoréalistes d'objets, en particulier dans la modélisation des effets des objets sur la scène.
English
Diffusion models have revolutionized image editing but often generate images
that violate physical laws, particularly the effects of objects on the scene,
e.g., occlusions, shadows, and reflections. By analyzing the limitations of
self-supervised approaches, we propose a practical solution centered on a
counterfactual dataset. Our method involves capturing a scene before and
after removing a single object, while minimizing other changes. By fine-tuning
a diffusion model on this dataset, we are able to not only remove objects but
also their effects on the scene. However, we find that applying this approach
for photorealistic object insertion requires an impractically large dataset. To
tackle this challenge, we propose bootstrap supervision; leveraging our object
removal model trained on a small counterfactual dataset, we synthetically
expand this dataset considerably. Our approach significantly outperforms prior
methods in photorealistic object removal and insertion, particularly at
modeling the effects of objects on the scene.Summary
AI-Generated Summary