Pintar mediante Inpainting: Aprender a Añadir Objetos en Imágenes Eliminándolos Primero
Paint by Inpaint: Learning to Add Image Objects by Removing Them First
April 28, 2024
Autores: Navve Wasserman, Noam Rotstein, Roy Ganz, Ron Kimmel
cs.AI
Resumen
La edición de imágenes ha avanzado significativamente con la introducción de modelos de difusión condicionados por texto. A pesar de este progreso, agregar objetos a las imágenes de manera fluida basándose en instrucciones textuales, sin requerir máscaras proporcionadas por el usuario, sigue siendo un desafío. Abordamos este problema aprovechando la idea de que eliminar objetos (Inpainting) es considerablemente más simple que su proceso inverso de agregarlos (Painting), lo cual se atribuye al uso de conjuntos de datos de máscaras de segmentación junto con modelos de inpainting que rellenan dentro de estas máscaras. Aprovechando esta comprensión, mediante la implementación de una canalización automatizada y extensa, creamos un conjunto de datos de imágenes a gran escala y filtrado que contiene pares de imágenes y sus versiones con objetos eliminados. Utilizando estos pares, entrenamos un modelo de difusión para invertir el proceso de inpainting, agregando efectivamente objetos a las imágenes. A diferencia de otros conjuntos de datos de edición, el nuestro presenta imágenes objetivo naturales en lugar de sintéticas; además, mantiene la coherencia entre la fuente y el objetivo por construcción. Adicionalmente, utilizamos un modelo grande de Visión-Lenguaje para proporcionar descripciones detalladas de los objetos eliminados y un Modelo de Lenguaje Grande para convertir estas descripciones en instrucciones diversas y en lenguaje natural. Demostramos que el modelo entrenado supera a los existentes tanto cualitativa como cuantitativamente, y liberamos el conjunto de datos a gran escala junto con los modelos entrenados para la comunidad.
English
Image editing has advanced significantly with the introduction of
text-conditioned diffusion models. Despite this progress, seamlessly adding
objects to images based on textual instructions without requiring user-provided
input masks remains a challenge. We address this by leveraging the insight that
removing objects (Inpaint) is significantly simpler than its inverse process of
adding them (Paint), attributed to the utilization of segmentation mask
datasets alongside inpainting models that inpaint within these masks.
Capitalizing on this realization, by implementing an automated and extensive
pipeline, we curate a filtered large-scale image dataset containing pairs of
images and their corresponding object-removed versions. Using these pairs, we
train a diffusion model to inverse the inpainting process, effectively adding
objects into images. Unlike other editing datasets, ours features natural
target images instead of synthetic ones; moreover, it maintains consistency
between source and target by construction. Additionally, we utilize a large
Vision-Language Model to provide detailed descriptions of the removed objects
and a Large Language Model to convert these descriptions into diverse,
natural-language instructions. We show that the trained model surpasses
existing ones both qualitatively and quantitatively, and release the
large-scale dataset alongside the trained models for the community.