ChatPaper.aiChatPaper

Diffree: Relleno de objetos libres de forma guiado por texto con modelo de difusión

Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model

July 24, 2024
Autores: Lirui Zhao, Tianshuo Yang, Wenqi Shao, Yuxin Zhang, Yu Qiao, Ping Luo, Kaipeng Zhang, Rongrong Ji
cs.AI

Resumen

Este documento aborda un problema importante de adición de objetos en imágenes con solo orientación de texto. Es desafiante porque el nuevo objeto debe integrarse sin problemas en la imagen con un contexto visual coherente, como iluminación, textura y ubicación espacial. Si bien los métodos existentes de rellenado de imágenes guiados por texto pueden añadir objetos, o bien no logran preservar la consistencia del fondo o implican una intervención humana engorrosa al especificar cuadros delimitadores o máscaras dibujadas por el usuario. Para abordar este desafío, presentamos Diffree, un modelo Texto-a-Imagen (T2I) que facilita la adición de objetos guiada por texto con solo control de texto. Con este fin, creamos OABench, un exquisito conjunto de datos sintéticos eliminando objetos con técnicas avanzadas de rellenado de imágenes. OABench consta de 74K tuplas del mundo real de una imagen original, una imagen rellenada con el objeto eliminado, una máscara de objeto y descripciones de objetos. Entrenado en OABench utilizando el modelo de Difusión Estable con un módulo adicional de predicción de máscara, Diffree predice de manera única la posición del nuevo objeto y logra la adición de objetos con orientación solo de texto. Experimentos extensos demuestran que Diffree sobresale en la adición de nuevos objetos con una alta tasa de éxito al tiempo que mantiene la consistencia del fondo, la adecuación espacial y la relevancia y calidad del objeto.
English
This paper addresses an important problem of object addition for images with only text guidance. It is challenging because the new object must be integrated seamlessly into the image with consistent visual context, such as lighting, texture, and spatial location. While existing text-guided image inpainting methods can add objects, they either fail to preserve the background consistency or involve cumbersome human intervention in specifying bounding boxes or user-scribbled masks. To tackle this challenge, we introduce Diffree, a Text-to-Image (T2I) model that facilitates text-guided object addition with only text control. To this end, we curate OABench, an exquisite synthetic dataset by removing objects with advanced image inpainting techniques. OABench comprises 74K real-world tuples of an original image, an inpainted image with the object removed, an object mask, and object descriptions. Trained on OABench using the Stable Diffusion model with an additional mask prediction module, Diffree uniquely predicts the position of the new object and achieves object addition with guidance from only text. Extensive experiments demonstrate that Diffree excels in adding new objects with a high success rate while maintaining background consistency, spatial appropriateness, and object relevance and quality.
PDF432November 28, 2024