Instruct-CLIP: Verbetering van instructiegestuurd beeldbewerken met geautomatiseerde datarefinering door middel van contrastief leren
Instruct-CLIP: Improving Instruction-Guided Image Editing with Automated Data Refinement Using Contrastive Learning
March 24, 2025
Auteurs: Sherry X. Chen, Misha Sra, Pradeep Sen
cs.AI
Samenvatting
Hoewel natuurlijke taal instructies een intuïtieve manier bieden om geautomatiseerde beeldbewerking te sturen, hebben deep-learning modellen vaak moeite om hoogwaardige resultaten te behalen, voornamelijk vanwege de uitdagingen bij het creëren van grote, hoogwaardige trainingsdatasets. Eerdere werkzaamheden hebben doorgaans vertrouwd op text-to-image (T2I) generatieve modellen om paren van originele en bewerkte afbeeldingen te produceren die de input/output van een instructiegestuurd beeldbewerkingsmodel simuleren. Deze afbeeldingsparen komen echter vaak niet overeen met de gespecificeerde bewerkingsinstructies vanwege de beperkingen van T2I-modellen, wat een negatieve impact heeft op modellen die op dergelijke datasets zijn getraind. Om dit aan te pakken, presenteren we Instruct-CLIP, een zelfgestuurde methode die de semantische veranderingen tussen originele en bewerkte afbeeldingen leert om de instructies in bestaande datasets te verfijnen en beter af te stemmen. Bovendien passen we Instruct-CLIP aan om ruisachtige latente afbeeldingen en diffusietijdstappen te verwerken, zodat het kan worden gebruikt om latente diffusiemodellen (LDMs) [19] te trainen en efficiënt de afstemming tussen de bewerkingsinstructie en de beeldveranderingen in de latente ruimte te handhaven op elk stap van de diffusiepijplijn. We gebruiken Instruct-CLIP om de InstructPix2Pix dataset te corrigeren en verkrijgen meer dan 120K verfijnde samples die we vervolgens gebruiken om hun model te fine-tunen, geleid door onze nieuwe Instruct-CLIP-gebaseerde verliesfunctie. Het resulterende model kan bewerkingen produceren die beter zijn afgestemd op de gegeven instructies. Onze code en dataset zijn beschikbaar op https://github.com/SherryXTChen/Instruct-CLIP.git.
English
Although natural language instructions offer an intuitive way to guide
automated image editing, deep-learning models often struggle to achieve
high-quality results, largely due to challenges in creating large, high-quality
training datasets. Previous work has typically relied on text-toimage (T2I)
generative models to produce pairs of original and edited images that simulate
the input/output of an instruction-guided image-editing model. However, these
image pairs often fail to align with the specified edit instructions due to the
limitations of T2I models, which negatively impacts models trained on such
datasets. To address this, we present Instruct-CLIP, a self-supervised method
that learns the semantic changes between original and edited images to refine
and better align the instructions in existing datasets. Furthermore, we adapt
Instruct-CLIP to handle noisy latent images and diffusion timesteps so that it
can be used to train latent diffusion models (LDMs) [19] and efficiently
enforce alignment between the edit instruction and the image changes in latent
space at any step of the diffusion pipeline. We use Instruct-CLIP to correct
the InstructPix2Pix dataset and get over 120K refined samples we then use to
fine-tune their model, guided by our novel Instruct-CLIP-based loss function.
The resulting model can produce edits that are more aligned with the given
instructions. Our code and dataset are available at
https://github.com/SherryXTChen/Instruct-CLIP.git.Summary
AI-Generated Summary