Diffree:拡散モデルを用いたテキスト誘導形状自由物体インペインティングDiffree: Text-Guided Shape Free Object Inpainting with Diffusion Model
本論文は、テキストガイダンスのみを用いた画像へのオブジェクト追加という重要な課題に取り組む。この課題は、新しいオブジェクトを照明、テクスチャ、空間的位置など視覚的コンテキストと一貫性を持ってシームレスに統合しなければならないため、困難である。既存のテキストガイド画像インペインティング手法はオブジェクトを追加できるが、背景の一貫性を維持できないか、バウンディングボックスの指定やユーザースクリブルマスクといった煩雑な人的介入を必要とする。この課題に対処するため、我々はテキスト制御のみでテキストガイドオブジェクト追加を可能にするText-to-Image(T2I)モデル、Diffreeを提案する。これに向けて、高度な画像インペインティング技術を用いてオブジェクトを除去した精巧な合成データセットOABenchを構築した。OABenchは、元画像、オブジェクトを除去したインペイント画像、オブジェクトマスク、オブジェクト記述からなる74Kの実世界タプルで構成される。Stable Diffusionモデルに追加のマスク予測モジュールを組み込み、OABenchで学習したDiffreeは、新しいオブジェクトの位置を独自に予測し、テキストガイダンスのみでオブジェクト追加を実現する。大規模な実験により、Diffreeが背景の一貫性、空間的適切性、オブジェクトの関連性と品質を維持しつつ、高い成功率で新しいオブジェクトを追加できることが実証された。