ChatPaper.aiChatPaper

ObjectDrop: Inicialização de Contrafactuais para Remoção e Inserção Foto-realística de Objetos

ObjectDrop: Bootstrapping Counterfactuals for Photorealistic Object Removal and Insertion

March 27, 2024
Autores: Daniel Winter, Matan Cohen, Shlomi Fruchter, Yael Pritch, Alex Rav-Acha, Yedid Hoshen
cs.AI

Resumo

Os modelos de difusão revolucionaram a edição de imagens, mas frequentemente geram imagens que violam as leis físicas, particularmente os efeitos dos objetos na cena, como oclusões, sombras e reflexões. Ao analisar as limitações das abordagens auto-supervisionadas, propomos uma solução prática centrada em um conjunto de dados contrafactual. Nosso método envolve capturar uma cena antes e depois da remoção de um único objeto, minimizando outras alterações. Ao ajustar finamente um modelo de difusão nesse conjunto de dados, conseguimos não apenas remover objetos, mas também seus efeitos na cena. No entanto, descobrimos que aplicar essa abordagem para a inserção fotorealística de objetos requer um conjunto de dados impraticavelmente grande. Para enfrentar esse desafio, propomos a supervisão por bootstrap; aproveitando nosso modelo de remoção de objetos treinado em um pequeno conjunto de dados contrafactual, expandimos sinteticamente esse conjunto de dados consideravelmente. Nossa abordagem supera significativamente métodos anteriores na remoção e inserção fotorealística de objetos, especialmente na modelagem dos efeitos dos objetos na cena.
English
Diffusion models have revolutionized image editing but often generate images that violate physical laws, particularly the effects of objects on the scene, e.g., occlusions, shadows, and reflections. By analyzing the limitations of self-supervised approaches, we propose a practical solution centered on a counterfactual dataset. Our method involves capturing a scene before and after removing a single object, while minimizing other changes. By fine-tuning a diffusion model on this dataset, we are able to not only remove objects but also their effects on the scene. However, we find that applying this approach for photorealistic object insertion requires an impractically large dataset. To tackle this challenge, we propose bootstrap supervision; leveraging our object removal model trained on a small counterfactual dataset, we synthetically expand this dataset considerably. Our approach significantly outperforms prior methods in photorealistic object removal and insertion, particularly at modeling the effects of objects on the scene.
PDF284December 15, 2024