ObjectDrop: Запуск контрфактических для фотореалистичного удаления и вставки объектов.
ObjectDrop: Bootstrapping Counterfactuals for Photorealistic Object Removal and Insertion
March 27, 2024
Авторы: Daniel Winter, Matan Cohen, Shlomi Fruchter, Yael Pritch, Alex Rav-Acha, Yedid Hoshen
cs.AI
Аннотация
Диффузионные модели революционизировали редактирование изображений, однако часто создают изображения, нарушающие физические законы, особенно влияние объектов на сцену, например, заслонения, тени и отражения. Анализируя ограничения самонаблюдаемых подходов, мы предлагаем практическое решение, сосредоточенное на контрфактическом наборе данных. Наш метод включает захват сцены до и после удаления одного объекта, минимизируя другие изменения. Путем настройки диффузионной модели на этом наборе данных мы можем не только удалять объекты, но и их воздействие на сцену. Однако мы обнаружили, что применение этого подхода для фотореалистичной вставки объектов требует нереалистично большого набора данных. Для решения этой проблемы мы предлагаем бутстрап-наблюдение; используя нашу модель удаления объектов, обученную на небольшом контрфактическом наборе данных, мы синтетически значительно расширяем этот набор данных. Наш подход значительно превосходит предыдущие методы в фотореалистичном удалении и вставке объектов, особенно в моделировании воздействия объектов на сцену.
English
Diffusion models have revolutionized image editing but often generate images
that violate physical laws, particularly the effects of objects on the scene,
e.g., occlusions, shadows, and reflections. By analyzing the limitations of
self-supervised approaches, we propose a practical solution centered on a
counterfactual dataset. Our method involves capturing a scene before and
after removing a single object, while minimizing other changes. By fine-tuning
a diffusion model on this dataset, we are able to not only remove objects but
also their effects on the scene. However, we find that applying this approach
for photorealistic object insertion requires an impractically large dataset. To
tackle this challenge, we propose bootstrap supervision; leveraging our object
removal model trained on a small counterfactual dataset, we synthetically
expand this dataset considerably. Our approach significantly outperforms prior
methods in photorealistic object removal and insertion, particularly at
modeling the effects of objects on the scene.Summary
AI-Generated Summary