Diffree: Relleno de objetos libres de forma guiado por texto con modelo de difusión
Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model
July 24, 2024
Autores: Lirui Zhao, Tianshuo Yang, Wenqi Shao, Yuxin Zhang, Yu Qiao, Ping Luo, Kaipeng Zhang, Rongrong Ji
cs.AI
Resumen
Este documento aborda un problema importante de adición de objetos en imágenes con solo orientación de texto. Es desafiante porque el nuevo objeto debe integrarse sin problemas en la imagen con un contexto visual coherente, como iluminación, textura y ubicación espacial. Si bien los métodos existentes de rellenado de imágenes guiados por texto pueden añadir objetos, o bien no logran preservar la consistencia del fondo o implican una intervención humana engorrosa al especificar cuadros delimitadores o máscaras dibujadas por el usuario. Para abordar este desafío, presentamos Diffree, un modelo Texto-a-Imagen (T2I) que facilita la adición de objetos guiada por texto con solo control de texto. Con este fin, creamos OABench, un exquisito conjunto de datos sintéticos eliminando objetos con técnicas avanzadas de rellenado de imágenes. OABench consta de 74K tuplas del mundo real de una imagen original, una imagen rellenada con el objeto eliminado, una máscara de objeto y descripciones de objetos. Entrenado en OABench utilizando el modelo de Difusión Estable con un módulo adicional de predicción de máscara, Diffree predice de manera única la posición del nuevo objeto y logra la adición de objetos con orientación solo de texto. Experimentos extensos demuestran que Diffree sobresale en la adición de nuevos objetos con una alta tasa de éxito al tiempo que mantiene la consistencia del fondo, la adecuación espacial y la relevancia y calidad del objeto.
English
This paper addresses an important problem of object addition for images with
only text guidance. It is challenging because the new object must be integrated
seamlessly into the image with consistent visual context, such as lighting,
texture, and spatial location. While existing text-guided image inpainting
methods can add objects, they either fail to preserve the background
consistency or involve cumbersome human intervention in specifying bounding
boxes or user-scribbled masks. To tackle this challenge, we introduce Diffree,
a Text-to-Image (T2I) model that facilitates text-guided object addition with
only text control. To this end, we curate OABench, an exquisite synthetic
dataset by removing objects with advanced image inpainting techniques. OABench
comprises 74K real-world tuples of an original image, an inpainted image with
the object removed, an object mask, and object descriptions. Trained on OABench
using the Stable Diffusion model with an additional mask prediction module,
Diffree uniquely predicts the position of the new object and achieves object
addition with guidance from only text. Extensive experiments demonstrate that
Diffree excels in adding new objects with a high success rate while maintaining
background consistency, spatial appropriateness, and object relevance and
quality.