Диффри: Заполнение формы объекта без ограничений текстом с использованием модели диффузииDiffree: Text-Guided Shape Free Object Inpainting with Diffusion Model
Данный документ рассматривает важную проблему добавления объекта на изображения только с помощью текстового руководства. Это вызывает трудности, поскольку новый объект должен быть интегрирован бесшовно в изображение с согласованным визуальным контекстом, таким как освещение, текстура и пространственное расположение. Существующие методы заполнения изображения с помощью текстового руководства могут добавлять объекты, однако они либо не сохраняют согласованность фона, либо требуют громоздкого вмешательства человека для указания ограничивающих рамок или масок, нарисованных пользователем. Для решения этой проблемы мы представляем Diffree, модель Text-to-Image (T2I), которая облегчает добавление объекта с помощью текстового управления. Для этого мы создаем OABench, изысканный синтетический набор данных, удаляя объекты с помощью передовых техник заполнения изображения. OABench включает 74 тыс. кортежей реального мира: исходное изображение, изображение с заполнением, где объект удален, маска объекта и описание объекта. Обученная на OABench с использованием модели Stable Diffusion с дополнительным модулем предсказания маски, Diffree уникально предсказывает положение нового объекта и достигает добавления объекта с помощью только текста. Обширные эксперименты показывают, что Diffree превосходит в добавлении новых объектов с высокой успешностью, сохраняя согласованность фона, пространственную соответственность и качество и релевантность объекта.