ChatPaper.aiChatPaper

ObjectDrop: Inicialización de Contrafactuales para la Eliminación e Inserción Fotorrealista de Objetos

ObjectDrop: Bootstrapping Counterfactuals for Photorealistic Object Removal and Insertion

March 27, 2024
Autores: Daniel Winter, Matan Cohen, Shlomi Fruchter, Yael Pritch, Alex Rav-Acha, Yedid Hoshen
cs.AI

Resumen

Los modelos de difusión han revolucionado la edición de imágenes, pero a menudo generan imágenes que violan las leyes físicas, particularmente los efectos de los objetos en la escena, como oclusiones, sombras y reflejos. Al analizar las limitaciones de los enfoques auto-supervisados, proponemos una solución práctica centrada en un conjunto de datos contrafactuales. Nuestro método implica capturar una escena antes y después de eliminar un solo objeto, minimizando otros cambios. Al ajustar un modelo de difusión en este conjunto de datos, logramos no solo eliminar objetos, sino también sus efectos en la escena. Sin embargo, descubrimos que aplicar este enfoque para la inserción fotorealista de objetos requiere un conjunto de datos impracticablemente grande. Para abordar este desafío, proponemos supervisión por bootstrap; aprovechando nuestro modelo de eliminación de objetos entrenado en un pequeño conjunto de datos contrafactuales, expandimos sintéticamente este conjunto de datos de manera considerable. Nuestro enfoque supera significativamente los métodos anteriores en la eliminación e inserción fotorealista de objetos, particularmente en la modelización de los efectos de los objetos en la escena.
English
Diffusion models have revolutionized image editing but often generate images that violate physical laws, particularly the effects of objects on the scene, e.g., occlusions, shadows, and reflections. By analyzing the limitations of self-supervised approaches, we propose a practical solution centered on a counterfactual dataset. Our method involves capturing a scene before and after removing a single object, while minimizing other changes. By fine-tuning a diffusion model on this dataset, we are able to not only remove objects but also their effects on the scene. However, we find that applying this approach for photorealistic object insertion requires an impractically large dataset. To tackle this challenge, we propose bootstrap supervision; leveraging our object removal model trained on a small counterfactual dataset, we synthetically expand this dataset considerably. Our approach significantly outperforms prior methods in photorealistic object removal and insertion, particularly at modeling the effects of objects on the scene.

Summary

AI-Generated Summary

PDF284December 15, 2024