ChatPaper.aiChatPaper

ObjectDrop:フォトリアルなオブジェクト除去と挿入のための反実仮想ブートストラップ

ObjectDrop: Bootstrapping Counterfactuals for Photorealistic Object Removal and Insertion

March 27, 2024
著者: Daniel Winter, Matan Cohen, Shlomi Fruchter, Yael Pritch, Alex Rav-Acha, Yedid Hoshen
cs.AI

要旨

拡散モデルは画像編集に革命をもたらしましたが、生成される画像は物理法則に反することが多く、特に物体がシーンに及ぼす影響(例:遮蔽、影、反射)に問題が見られます。自己教師ありアプローチの限界を分析し、私たちは反事実的データセットを中心とした実用的な解決策を提案します。この方法では、単一の物体を除去する前後のシーンを撮影し、他の変化を最小限に抑えます。このデータセットで拡散モデルをファインチューニングすることで、物体だけでなく、シーンへの影響も除去できるようになります。しかし、フォトリアルな物体挿入にこのアプローチを適用するには、現実的でないほど大規模なデータセットが必要であることがわかりました。この課題に対処するため、ブートストラップ監視を提案します。小規模な反事実的データセットで学習した物体除去モデルを活用し、このデータセットを大幅に合成拡張します。私たちのアプローチは、特に物体がシーンに及ぼす影響のモデリングにおいて、従来の手法を大幅に上回るフォトリアルな物体除去と挿入を実現します。
English
Diffusion models have revolutionized image editing but often generate images that violate physical laws, particularly the effects of objects on the scene, e.g., occlusions, shadows, and reflections. By analyzing the limitations of self-supervised approaches, we propose a practical solution centered on a counterfactual dataset. Our method involves capturing a scene before and after removing a single object, while minimizing other changes. By fine-tuning a diffusion model on this dataset, we are able to not only remove objects but also their effects on the scene. However, we find that applying this approach for photorealistic object insertion requires an impractically large dataset. To tackle this challenge, we propose bootstrap supervision; leveraging our object removal model trained on a small counterfactual dataset, we synthetically expand this dataset considerably. Our approach significantly outperforms prior methods in photorealistic object removal and insertion, particularly at modeling the effects of objects on the scene.

Summary

AI-Generated Summary

PDF284December 15, 2024