Диффри: Заполнение формы объекта без ограничений текстом с использованием модели диффузии
Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model
July 24, 2024
Авторы: Lirui Zhao, Tianshuo Yang, Wenqi Shao, Yuxin Zhang, Yu Qiao, Ping Luo, Kaipeng Zhang, Rongrong Ji
cs.AI
Аннотация
Данный документ рассматривает важную проблему добавления объекта на изображения только с помощью текстового руководства. Это вызывает трудности, поскольку новый объект должен быть интегрирован бесшовно в изображение с согласованным визуальным контекстом, таким как освещение, текстура и пространственное расположение. Существующие методы заполнения изображения с помощью текстового руководства могут добавлять объекты, однако они либо не сохраняют согласованность фона, либо требуют громоздкого вмешательства человека для указания ограничивающих рамок или масок, нарисованных пользователем. Для решения этой проблемы мы представляем Diffree, модель Text-to-Image (T2I), которая облегчает добавление объекта с помощью текстового управления. Для этого мы создаем OABench, изысканный синтетический набор данных, удаляя объекты с помощью передовых техник заполнения изображения. OABench включает 74 тыс. кортежей реального мира: исходное изображение, изображение с заполнением, где объект удален, маска объекта и описание объекта. Обученная на OABench с использованием модели Stable Diffusion с дополнительным модулем предсказания маски, Diffree уникально предсказывает положение нового объекта и достигает добавления объекта с помощью только текста. Обширные эксперименты показывают, что Diffree превосходит в добавлении новых объектов с высокой успешностью, сохраняя согласованность фона, пространственную соответственность и качество и релевантность объекта.
English
This paper addresses an important problem of object addition for images with
only text guidance. It is challenging because the new object must be integrated
seamlessly into the image with consistent visual context, such as lighting,
texture, and spatial location. While existing text-guided image inpainting
methods can add objects, they either fail to preserve the background
consistency or involve cumbersome human intervention in specifying bounding
boxes or user-scribbled masks. To tackle this challenge, we introduce Diffree,
a Text-to-Image (T2I) model that facilitates text-guided object addition with
only text control. To this end, we curate OABench, an exquisite synthetic
dataset by removing objects with advanced image inpainting techniques. OABench
comprises 74K real-world tuples of an original image, an inpainted image with
the object removed, an object mask, and object descriptions. Trained on OABench
using the Stable Diffusion model with an additional mask prediction module,
Diffree uniquely predicts the position of the new object and achieves object
addition with guidance from only text. Extensive experiments demonstrate that
Diffree excels in adding new objects with a high success rate while maintaining
background consistency, spatial appropriateness, and object relevance and
quality.Summary
AI-Generated Summary