ObjectDrop: Inicialización de Contrafactuales para la Eliminación e Inserción Fotorrealista de Objetos
ObjectDrop: Bootstrapping Counterfactuals for Photorealistic Object Removal and Insertion
March 27, 2024
Autores: Daniel Winter, Matan Cohen, Shlomi Fruchter, Yael Pritch, Alex Rav-Acha, Yedid Hoshen
cs.AI
Resumen
Los modelos de difusión han revolucionado la edición de imágenes, pero a menudo generan imágenes que violan las leyes físicas, particularmente los efectos de los objetos en la escena, como oclusiones, sombras y reflejos. Al analizar las limitaciones de los enfoques auto-supervisados, proponemos una solución práctica centrada en un conjunto de datos contrafactuales. Nuestro método implica capturar una escena antes y después de eliminar un solo objeto, minimizando otros cambios. Al ajustar un modelo de difusión en este conjunto de datos, logramos no solo eliminar objetos, sino también sus efectos en la escena. Sin embargo, descubrimos que aplicar este enfoque para la inserción fotorealista de objetos requiere un conjunto de datos impracticablemente grande. Para abordar este desafío, proponemos supervisión por bootstrap; aprovechando nuestro modelo de eliminación de objetos entrenado en un pequeño conjunto de datos contrafactuales, expandimos sintéticamente este conjunto de datos de manera considerable. Nuestro enfoque supera significativamente los métodos anteriores en la eliminación e inserción fotorealista de objetos, particularmente en la modelización de los efectos de los objetos en la escena.
English
Diffusion models have revolutionized image editing but often generate images
that violate physical laws, particularly the effects of objects on the scene,
e.g., occlusions, shadows, and reflections. By analyzing the limitations of
self-supervised approaches, we propose a practical solution centered on a
counterfactual dataset. Our method involves capturing a scene before and
after removing a single object, while minimizing other changes. By fine-tuning
a diffusion model on this dataset, we are able to not only remove objects but
also their effects on the scene. However, we find that applying this approach
for photorealistic object insertion requires an impractically large dataset. To
tackle this challenge, we propose bootstrap supervision; leveraging our object
removal model trained on a small counterfactual dataset, we synthetically
expand this dataset considerably. Our approach significantly outperforms prior
methods in photorealistic object removal and insertion, particularly at
modeling the effects of objects on the scene.Summary
AI-Generated Summary