Instruct-CLIP: Mejora de la edición de imágenes guiada por instrucciones con refinamiento automático de datos utilizando aprendizaje contrastivo
Instruct-CLIP: Improving Instruction-Guided Image Editing with Automated Data Refinement Using Contrastive Learning
March 24, 2025
Autores: Sherry X. Chen, Misha Sra, Pradeep Sen
cs.AI
Resumen
Aunque las instrucciones en lenguaje natural ofrecen una forma intuitiva de guiar la edición automatizada de imágenes, los modelos de aprendizaje profundo a menudo tienen dificultades para lograr resultados de alta calidad, principalmente debido a los desafíos en la creación de grandes conjuntos de datos de entrenamiento de alta calidad. Trabajos anteriores generalmente han dependido de modelos generativos de texto a imagen (T2I) para producir pares de imágenes originales y editadas que simulan la entrada/salida de un modelo de edición de imágenes guiado por instrucciones. Sin embargo, estos pares de imágenes a menudo no se alinean con las instrucciones de edición especificadas debido a las limitaciones de los modelos T2I, lo que afecta negativamente a los modelos entrenados con dichos conjuntos de datos. Para abordar esto, presentamos Instruct-CLIP, un método autosupervisado que aprende los cambios semánticos entre imágenes originales y editadas para refinar y alinear mejor las instrucciones en los conjuntos de datos existentes. Además, adaptamos Instruct-CLIP para manejar imágenes latentes ruidosas y pasos de difusión, de modo que pueda usarse para entrenar modelos de difusión latente (LDMs) [19] y hacer cumplir eficientemente la alineación entre la instrucción de edición y los cambios en la imagen en el espacio latente en cualquier paso del proceso de difusión. Utilizamos Instruct-CLIP para corregir el conjunto de datos InstructPix2Pix y obtener más de 120K muestras refinadas que luego usamos para ajustar su modelo, guiados por nuestra nueva función de pérdida basada en Instruct-CLIP. El modelo resultante puede producir ediciones que están más alineadas con las instrucciones dadas. Nuestro código y conjunto de datos están disponibles en https://github.com/SherryXTChen/Instruct-CLIP.git.
English
Although natural language instructions offer an intuitive way to guide
automated image editing, deep-learning models often struggle to achieve
high-quality results, largely due to challenges in creating large, high-quality
training datasets. Previous work has typically relied on text-toimage (T2I)
generative models to produce pairs of original and edited images that simulate
the input/output of an instruction-guided image-editing model. However, these
image pairs often fail to align with the specified edit instructions due to the
limitations of T2I models, which negatively impacts models trained on such
datasets. To address this, we present Instruct-CLIP, a self-supervised method
that learns the semantic changes between original and edited images to refine
and better align the instructions in existing datasets. Furthermore, we adapt
Instruct-CLIP to handle noisy latent images and diffusion timesteps so that it
can be used to train latent diffusion models (LDMs) [19] and efficiently
enforce alignment between the edit instruction and the image changes in latent
space at any step of the diffusion pipeline. We use Instruct-CLIP to correct
the InstructPix2Pix dataset and get over 120K refined samples we then use to
fine-tune their model, guided by our novel Instruct-CLIP-based loss function.
The resulting model can produce edits that are more aligned with the given
instructions. Our code and dataset are available at
https://github.com/SherryXTChen/Instruct-CLIP.git.Summary
AI-Generated Summary