ObjectDrop: 사진처럼 현실적인 객체 제거 및 삽입을 위한 반사실적 학습 기법
ObjectDrop: Bootstrapping Counterfactuals for Photorealistic Object Removal and Insertion
March 27, 2024
저자: Daniel Winter, Matan Cohen, Shlomi Fruchter, Yael Pritch, Alex Rav-Acha, Yedid Hoshen
cs.AI
초록
디퓨전 모델은 이미지 편집 분야에 혁신을 가져왔지만, 종종 물리 법칙을 위반하는 이미지를 생성합니다. 특히 장면 내 객체의 영향, 예를 들어 가림, 그림자, 반사 등이 잘못 표현되는 문제가 있습니다. 우리는 자기 지도 학습 접근법의 한계를 분석하고, 이를 해결하기 위해 반사실적 데이터셋을 중심으로 한 실용적인 솔루션을 제안합니다. 우리의 방법은 단일 객체를 제거하기 전과 후의 장면을 캡처하면서 다른 변화를 최소화하는 것입니다. 이 데이터셋으로 디퓨전 모델을 미세 조정함으로써, 우리는 객체뿐만 아니라 장면에 미치는 그 효과까지 제거할 수 있습니다. 그러나 사실적인 객체 삽입을 위해 이 접근법을 적용하려면 비현실적으로 큰 데이터셋이 필요하다는 점을 발견했습니다. 이 문제를 해결하기 위해, 우리는 부트스트랩 지도 학습을 제안합니다. 작은 반사실적 데이터셋으로 훈련된 객체 제거 모델을 활용하여, 이 데이터셋을 크게 확장합니다. 우리의 접근법은 특히 장면에 미치는 객체의 효과를 모델링하는 데 있어서, 기존 방법들을 크게 능가하는 사실적인 객체 제거 및 삽입 성능을 보여줍니다.
English
Diffusion models have revolutionized image editing but often generate images
that violate physical laws, particularly the effects of objects on the scene,
e.g., occlusions, shadows, and reflections. By analyzing the limitations of
self-supervised approaches, we propose a practical solution centered on a
counterfactual dataset. Our method involves capturing a scene before and
after removing a single object, while minimizing other changes. By fine-tuning
a diffusion model on this dataset, we are able to not only remove objects but
also their effects on the scene. However, we find that applying this approach
for photorealistic object insertion requires an impractically large dataset. To
tackle this challenge, we propose bootstrap supervision; leveraging our object
removal model trained on a small counterfactual dataset, we synthetically
expand this dataset considerably. Our approach significantly outperforms prior
methods in photorealistic object removal and insertion, particularly at
modeling the effects of objects on the scene.Summary
AI-Generated Summary