Диффри: Заполнение формы объекта без ограничений текстом с использованием модели диффузии

Аннотация

Данный документ рассматривает важную проблему добавления объекта на изображения только с помощью текстового руководства. Это вызывает трудности, поскольку новый объект должен быть интегрирован бесшовно в изображение с согласованным визуальным контекстом, таким как освещение, текстура и пространственное расположение. Существующие методы заполнения изображения с помощью текстового руководства могут добавлять объекты, однако они либо не сохраняют согласованность фона, либо требуют громоздкого вмешательства человека для указания ограничивающих рамок или масок, нарисованных пользователем. Для решения этой проблемы мы представляем Diffree, модель Text-to-Image (T2I), которая облегчает добавление объекта с помощью текстового управления. Для этого мы создаем OABench, изысканный синтетический набор данных, удаляя объекты с помощью передовых техник заполнения изображения. OABench включает 74 тыс. кортежей реального мира: исходное изображение, изображение с заполнением, где объект удален, маска объекта и описание объекта. Обученная на OABench с использованием модели Stable Diffusion с дополнительным модулем предсказания маски, Diffree уникально предсказывает положение нового объекта и достигает добавления объекта с помощью только текста. Обширные эксперименты показывают, что Diffree превосходит в добавлении новых объектов с высокой успешностью, сохраняя согласованность фона, пространственную соответственность и качество и релевантность объекта.

English

This paper addresses an important problem of object addition for images with only text guidance. It is challenging because the new object must be integrated seamlessly into the image with consistent visual context, such as lighting, texture, and spatial location. While existing text-guided image inpainting methods can add objects, they either fail to preserve the background consistency or involve cumbersome human intervention in specifying bounding boxes or user-scribbled masks. To tackle this challenge, we introduce Diffree, a Text-to-Image (T2I) model that facilitates text-guided object addition with only text control. To this end, we curate OABench, an exquisite synthetic dataset by removing objects with advanced image inpainting techniques. OABench comprises 74K real-world tuples of an original image, an inpainted image with the object removed, an object mask, and object descriptions. Trained on OABench using the Stable Diffusion model with an additional mask prediction module, Diffree uniquely predicts the position of the new object and achieves object addition with guidance from only text. Extensive experiments demonstrate that Diffree excels in adding new objects with a high success rate while maintaining background consistency, spatial appropriateness, and object relevance and quality.

Диффри: Заполнение формы объекта без ограничений текстом с использованием модели диффузии

Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model

Аннотация

Support