Instruct-CLIP : Amélioration de l'édition d'images guidée par instructions grâce au raffinement automatisé des données utilisant l'apprentissage contrastif
Instruct-CLIP: Improving Instruction-Guided Image Editing with Automated Data Refinement Using Contrastive Learning
March 24, 2025
Auteurs: Sherry X. Chen, Misha Sra, Pradeep Sen
cs.AI
Résumé
Bien que les instructions en langage naturel offrent une manière intuitive de guider l'édition d'images automatisée, les modèles d'apprentissage profond peinent souvent à obtenir des résultats de haute qualité, principalement en raison des difficultés à créer des ensembles de données d'entraînement volumineux et de qualité. Les travaux précédents se sont généralement appuyés sur des modèles génératifs texte-image (T2I) pour produire des paires d'images originales et éditées simulant l'entrée/sortie d'un modèle d'édition d'images guidé par instructions. Cependant, ces paires d'images ne correspondent souvent pas aux instructions d'édition spécifiées en raison des limitations des modèles T2I, ce qui affecte négativement les modèles entraînés sur de tels ensembles de données. Pour remédier à cela, nous présentons Instruct-CLIP, une méthode auto-supervisée qui apprend les changements sémantiques entre les images originales et éditées pour affiner et mieux aligner les instructions dans les ensembles de données existants. De plus, nous adaptons Instruct-CLIP pour gérer les images latentes bruitées et les étapes de diffusion, afin qu'il puisse être utilisé pour entraîner des modèles de diffusion latente (LDMs) [19] et imposer efficacement l'alignement entre l'instruction d'édition et les changements d'images dans l'espace latent à n'importe quelle étape du pipeline de diffusion. Nous utilisons Instruct-CLIP pour corriger le jeu de données InstructPix2Pix et obtenons plus de 120 000 échantillons raffinés que nous utilisons ensuite pour affiner leur modèle, guidé par notre nouvelle fonction de perte basée sur Instruct-CLIP. Le modèle résultant peut produire des éditions mieux alignées avec les instructions données. Notre code et notre jeu de données sont disponibles à l'adresse https://github.com/SherryXTChen/Instruct-CLIP.git.
English
Although natural language instructions offer an intuitive way to guide
automated image editing, deep-learning models often struggle to achieve
high-quality results, largely due to challenges in creating large, high-quality
training datasets. Previous work has typically relied on text-toimage (T2I)
generative models to produce pairs of original and edited images that simulate
the input/output of an instruction-guided image-editing model. However, these
image pairs often fail to align with the specified edit instructions due to the
limitations of T2I models, which negatively impacts models trained on such
datasets. To address this, we present Instruct-CLIP, a self-supervised method
that learns the semantic changes between original and edited images to refine
and better align the instructions in existing datasets. Furthermore, we adapt
Instruct-CLIP to handle noisy latent images and diffusion timesteps so that it
can be used to train latent diffusion models (LDMs) [19] and efficiently
enforce alignment between the edit instruction and the image changes in latent
space at any step of the diffusion pipeline. We use Instruct-CLIP to correct
the InstructPix2Pix dataset and get over 120K refined samples we then use to
fine-tune their model, guided by our novel Instruct-CLIP-based loss function.
The resulting model can produce edits that are more aligned with the given
instructions. Our code and dataset are available at
https://github.com/SherryXTChen/Instruct-CLIP.git.Summary
AI-Generated Summary