Diffree: Relleno de objetos libres de forma guiado por texto con modelo de difusiónDiffree: Text-Guided Shape Free Object Inpainting with Diffusion Model
Este documento aborda un problema importante de adición de objetos en imágenes con solo orientación de texto. Es desafiante porque el nuevo objeto debe integrarse sin problemas en la imagen con un contexto visual coherente, como iluminación, textura y ubicación espacial. Si bien los métodos existentes de rellenado de imágenes guiados por texto pueden añadir objetos, o bien no logran preservar la consistencia del fondo o implican una intervención humana engorrosa al especificar cuadros delimitadores o máscaras dibujadas por el usuario. Para abordar este desafío, presentamos Diffree, un modelo Texto-a-Imagen (T2I) que facilita la adición de objetos guiada por texto con solo control de texto. Con este fin, creamos OABench, un exquisito conjunto de datos sintéticos eliminando objetos con técnicas avanzadas de rellenado de imágenes. OABench consta de 74K tuplas del mundo real de una imagen original, una imagen rellenada con el objeto eliminado, una máscara de objeto y descripciones de objetos. Entrenado en OABench utilizando el modelo de Difusión Estable con un módulo adicional de predicción de máscara, Diffree predice de manera única la posición del nuevo objeto y logra la adición de objetos con orientación solo de texto. Experimentos extensos demuestran que Diffree sobresale en la adición de nuevos objetos con una alta tasa de éxito al tiempo que mantiene la consistencia del fondo, la adecuación espacial y la relevancia y calidad del objeto.