Instruct-CLIP: Aprimorando a Edição de Imagens Guiada por Instruções com Refinamento Automático de Dados Usando Aprendizado Contrastivo

Resumo

Embora as instruções em linguagem natural ofereçam uma maneira intuitiva de guiar a edição automatizada de imagens, os modelos de aprendizado profundo frequentemente enfrentam dificuldades para alcançar resultados de alta qualidade, principalmente devido aos desafios na criação de grandes conjuntos de dados de treinamento de alta qualidade. Trabalhos anteriores geralmente dependiam de modelos generativos de texto para imagem (T2I) para produzir pares de imagens originais e editadas que simulam a entrada/saída de um modelo de edição de imagens guiado por instruções. No entanto, esses pares de imagens muitas vezes não se alinham com as instruções de edição especificadas devido às limitações dos modelos T2I, o que impacta negativamente os modelos treinados com esses conjuntos de dados. Para resolver isso, apresentamos o Instruct-CLIP, um método auto-supervisionado que aprende as mudanças semânticas entre imagens originais e editadas para refinar e melhor alinhar as instruções em conjuntos de dados existentes. Além disso, adaptamos o Instruct-CLIP para lidar com imagens latentes ruidosas e etapas de difusão, permitindo que ele seja usado para treinar modelos de difusão latente (LDMs) [19] e impor eficientemente o alinhamento entre a instrução de edição e as mudanças na imagem no espaço latente em qualquer etapa do pipeline de difusão. Utilizamos o Instruct-CLIP para corrigir o conjunto de dados InstructPix2Pix e obtivemos mais de 120 mil amostras refinadas, que então usamos para ajustar o modelo, guiados por nossa nova função de perda baseada no Instruct-CLIP. O modelo resultante é capaz de produzir edições mais alinhadas com as instruções fornecidas. Nosso código e conjunto de dados estão disponíveis em https://github.com/SherryXTChen/Instruct-CLIP.git.

English

Although natural language instructions offer an intuitive way to guide automated image editing, deep-learning models often struggle to achieve high-quality results, largely due to challenges in creating large, high-quality training datasets. Previous work has typically relied on text-toimage (T2I) generative models to produce pairs of original and edited images that simulate the input/output of an instruction-guided image-editing model. However, these image pairs often fail to align with the specified edit instructions due to the limitations of T2I models, which negatively impacts models trained on such datasets. To address this, we present Instruct-CLIP, a self-supervised method that learns the semantic changes between original and edited images to refine and better align the instructions in existing datasets. Furthermore, we adapt Instruct-CLIP to handle noisy latent images and diffusion timesteps so that it can be used to train latent diffusion models (LDMs) [19] and efficiently enforce alignment between the edit instruction and the image changes in latent space at any step of the diffusion pipeline. We use Instruct-CLIP to correct the InstructPix2Pix dataset and get over 120K refined samples we then use to fine-tune their model, guided by our novel Instruct-CLIP-based loss function. The resulting model can produce edits that are more aligned with the given instructions. Our code and dataset are available at https://github.com/SherryXTChen/Instruct-CLIP.git.

Instruct-CLIP: Aprimorando a Edição de Imagens Guiada por Instruções com Refinamento Automático de Dados Usando Aprendizado Contrastivo

Instruct-CLIP: Improving Instruction-Guided Image Editing with Automated Data Refinement Using Contrastive Learning

Resumo

Support