Instruct-CLIP: Улучшение редактирования изображений на основе инструкций с автоматической доработкой данных с использованием контрастного обучения
Instruct-CLIP: Improving Instruction-Guided Image Editing with Automated Data Refinement Using Contrastive Learning
March 24, 2025
Авторы: Sherry X. Chen, Misha Sra, Pradeep Sen
cs.AI
Аннотация
Хотя инструкции на естественном языке предлагают интуитивный способ управления автоматизированным редактированием изображений, модели глубокого обучения часто сталкиваются с трудностями в достижении высококачественных результатов, что в значительной степени связано с проблемами создания больших и качественных обучающих наборов данных. Предыдущие работы обычно полагались на генеративные модели "текст-в-изображение" (T2I) для создания пар исходных и отредактированных изображений, которые имитируют входные/выходные данные модели, управляемой инструкциями. Однако эти пары изображений часто не соответствуют указанным инструкциям из-за ограничений T2I-моделей, что негативно сказывается на моделях, обученных на таких наборах данных. Чтобы решить эту проблему, мы представляем Instruct-CLIP — метод самообучения, который изучает семантические изменения между исходными и отредактированными изображениями для уточнения и лучшего согласования инструкций в существующих наборах данных. Кроме того, мы адаптируем Instruct-CLIP для работы с зашумленными латентными изображениями и шагами диффузии, что позволяет использовать его для обучения латентных диффузионных моделей (LDMs) [19] и эффективно обеспечивать согласованность между инструкцией редактирования и изменениями изображения в латентном пространстве на любом этапе диффузионного процесса. Мы используем Instruct-CLIP для исправления набора данных InstructPix2Pix и получаем более 120 тыс. уточненных образцов, которые затем применяем для тонкой настройки их модели с использованием нашей новой функции потерь на основе Instruct-CLIP. Полученная модель способна создавать правки, которые лучше соответствуют заданным инструкциям. Наш код и набор данных доступны по адресу https://github.com/SherryXTChen/Instruct-CLIP.git.
English
Although natural language instructions offer an intuitive way to guide
automated image editing, deep-learning models often struggle to achieve
high-quality results, largely due to challenges in creating large, high-quality
training datasets. Previous work has typically relied on text-toimage (T2I)
generative models to produce pairs of original and edited images that simulate
the input/output of an instruction-guided image-editing model. However, these
image pairs often fail to align with the specified edit instructions due to the
limitations of T2I models, which negatively impacts models trained on such
datasets. To address this, we present Instruct-CLIP, a self-supervised method
that learns the semantic changes between original and edited images to refine
and better align the instructions in existing datasets. Furthermore, we adapt
Instruct-CLIP to handle noisy latent images and diffusion timesteps so that it
can be used to train latent diffusion models (LDMs) [19] and efficiently
enforce alignment between the edit instruction and the image changes in latent
space at any step of the diffusion pipeline. We use Instruct-CLIP to correct
the InstructPix2Pix dataset and get over 120K refined samples we then use to
fine-tune their model, guided by our novel Instruct-CLIP-based loss function.
The resulting model can produce edits that are more aligned with the given
instructions. Our code and dataset are available at
https://github.com/SherryXTChen/Instruct-CLIP.git.Summary
AI-Generated Summary