Instruct-CLIP: Aprimorando a Edição de Imagens Guiada por Instruções com Refinamento Automático de Dados Usando Aprendizado Contrastivo
Instruct-CLIP: Improving Instruction-Guided Image Editing with Automated Data Refinement Using Contrastive Learning
March 24, 2025
Autores: Sherry X. Chen, Misha Sra, Pradeep Sen
cs.AI
Resumo
Embora as instruções em linguagem natural ofereçam uma maneira intuitiva de guiar a edição automatizada de imagens, os modelos de aprendizado profundo frequentemente enfrentam dificuldades para alcançar resultados de alta qualidade, principalmente devido aos desafios na criação de grandes conjuntos de dados de treinamento de alta qualidade. Trabalhos anteriores geralmente dependiam de modelos generativos de texto para imagem (T2I) para produzir pares de imagens originais e editadas que simulam a entrada/saída de um modelo de edição de imagens guiado por instruções. No entanto, esses pares de imagens muitas vezes não se alinham com as instruções de edição especificadas devido às limitações dos modelos T2I, o que impacta negativamente os modelos treinados com esses conjuntos de dados. Para resolver isso, apresentamos o Instruct-CLIP, um método auto-supervisionado que aprende as mudanças semânticas entre imagens originais e editadas para refinar e melhor alinhar as instruções em conjuntos de dados existentes. Além disso, adaptamos o Instruct-CLIP para lidar com imagens latentes ruidosas e etapas de difusão, permitindo que ele seja usado para treinar modelos de difusão latente (LDMs) [19] e impor eficientemente o alinhamento entre a instrução de edição e as mudanças na imagem no espaço latente em qualquer etapa do pipeline de difusão. Utilizamos o Instruct-CLIP para corrigir o conjunto de dados InstructPix2Pix e obtivemos mais de 120 mil amostras refinadas, que então usamos para ajustar o modelo, guiados por nossa nova função de perda baseada no Instruct-CLIP. O modelo resultante é capaz de produzir edições mais alinhadas com as instruções fornecidas. Nosso código e conjunto de dados estão disponíveis em https://github.com/SherryXTChen/Instruct-CLIP.git.
English
Although natural language instructions offer an intuitive way to guide
automated image editing, deep-learning models often struggle to achieve
high-quality results, largely due to challenges in creating large, high-quality
training datasets. Previous work has typically relied on text-toimage (T2I)
generative models to produce pairs of original and edited images that simulate
the input/output of an instruction-guided image-editing model. However, these
image pairs often fail to align with the specified edit instructions due to the
limitations of T2I models, which negatively impacts models trained on such
datasets. To address this, we present Instruct-CLIP, a self-supervised method
that learns the semantic changes between original and edited images to refine
and better align the instructions in existing datasets. Furthermore, we adapt
Instruct-CLIP to handle noisy latent images and diffusion timesteps so that it
can be used to train latent diffusion models (LDMs) [19] and efficiently
enforce alignment between the edit instruction and the image changes in latent
space at any step of the diffusion pipeline. We use Instruct-CLIP to correct
the InstructPix2Pix dataset and get over 120K refined samples we then use to
fine-tune their model, guided by our novel Instruct-CLIP-based loss function.
The resulting model can produce edits that are more aligned with the given
instructions. Our code and dataset are available at
https://github.com/SherryXTChen/Instruct-CLIP.git.Summary
AI-Generated Summary