Pintar mediante Inpainting: Aprender a Añadir Objetos en Imágenes Eliminándolos Primero

Resumen

La edición de imágenes ha avanzado significativamente con la introducción de modelos de difusión condicionados por texto. A pesar de este progreso, agregar objetos a las imágenes de manera fluida basándose en instrucciones textuales, sin requerir máscaras proporcionadas por el usuario, sigue siendo un desafío. Abordamos este problema aprovechando la idea de que eliminar objetos (Inpainting) es considerablemente más simple que su proceso inverso de agregarlos (Painting), lo cual se atribuye al uso de conjuntos de datos de máscaras de segmentación junto con modelos de inpainting que rellenan dentro de estas máscaras. Aprovechando esta comprensión, mediante la implementación de una canalización automatizada y extensa, creamos un conjunto de datos de imágenes a gran escala y filtrado que contiene pares de imágenes y sus versiones con objetos eliminados. Utilizando estos pares, entrenamos un modelo de difusión para invertir el proceso de inpainting, agregando efectivamente objetos a las imágenes. A diferencia de otros conjuntos de datos de edición, el nuestro presenta imágenes objetivo naturales en lugar de sintéticas; además, mantiene la coherencia entre la fuente y el objetivo por construcción. Adicionalmente, utilizamos un modelo grande de Visión-Lenguaje para proporcionar descripciones detalladas de los objetos eliminados y un Modelo de Lenguaje Grande para convertir estas descripciones en instrucciones diversas y en lenguaje natural. Demostramos que el modelo entrenado supera a los existentes tanto cualitativa como cuantitativamente, y liberamos el conjunto de datos a gran escala junto con los modelos entrenados para la comunidad.

English

Image editing has advanced significantly with the introduction of text-conditioned diffusion models. Despite this progress, seamlessly adding objects to images based on textual instructions without requiring user-provided input masks remains a challenge. We address this by leveraging the insight that removing objects (Inpaint) is significantly simpler than its inverse process of adding them (Paint), attributed to the utilization of segmentation mask datasets alongside inpainting models that inpaint within these masks. Capitalizing on this realization, by implementing an automated and extensive pipeline, we curate a filtered large-scale image dataset containing pairs of images and their corresponding object-removed versions. Using these pairs, we train a diffusion model to inverse the inpainting process, effectively adding objects into images. Unlike other editing datasets, ours features natural target images instead of synthetic ones; moreover, it maintains consistency between source and target by construction. Additionally, we utilize a large Vision-Language Model to provide detailed descriptions of the removed objects and a Large Language Model to convert these descriptions into diverse, natural-language instructions. We show that the trained model surpasses existing ones both qualitatively and quantitatively, and release the large-scale dataset alongside the trained models for the community.

Pintar mediante Inpainting: Aprender a Añadir Objetos en Imágenes Eliminándolos Primero

Paint by Inpaint: Learning to Add Image Objects by Removing Them First

Resumen

Support