SuperEdit: Устранение ошибок и упрощение контроля при редактировании изображений на основе инструкций
SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing
May 5, 2025
Авторы: Ming Li, Xin Gu, Fan Chen, Xiaoying Xing, Longyin Wen, Chen Chen, Sijie Zhu
cs.AI
Аннотация
Из-за сложностей ручного сбора точных данных о редактировании существующие наборы данных обычно создаются с использованием различных автоматизированных методов, что приводит к зашумленным сигналам обучения, вызванным несоответствием между инструкциями по редактированию и парами исходных и отредактированных изображений. Недавние попытки улучшить модели редактирования за счет генерации изображений более высокого качества, предварительного обучения на задачах распознавания или внедрения моделей, объединяющих зрение и язык (VLMs), не смогли решить эту фундаментальную проблему. В данной статье мы предлагаем новое решение, заключающееся в создании более эффективных инструкций по редактированию для заданных пар изображений. Это включает исправление инструкций по редактированию для лучшего соответствия парам исходных и отредактированных изображений, а также использование контрастных инструкций для дальнейшего повышения их эффективности. В частности, мы обнаружили, что модели редактирования демонстрируют определенные атрибуты генерации на разных этапах вывода, независимо от текста. На основе этих априорных атрибутов мы определяем унифицированное руководство для VLMs, чтобы исправлять инструкции по редактированию. Однако существуют сложные сценарии редактирования, которые невозможно разрешить только с помощью исправленных инструкций. Для этого мы дополнительно создаем контрастные сигналы обучения с использованием положительных и отрицательных инструкций и внедряем их в обучение модели с использованием тройной функции потерь, тем самым дополнительно повышая эффективность обучения. Наш метод не требует модулей VLMs или задач предварительного обучения, использовавшихся в предыдущих работах, предлагая более прямой и эффективный способ предоставления лучших сигналов обучения, а также предоставляя новое, простое и эффективное решение для редактирования изображений на основе инструкций. Результаты на нескольких тестовых наборах данных демонстрируют, что наш метод значительно превосходит существующие подходы. По сравнению с предыдущим SOTA SmartEdit, мы достигаем улучшения на 9,19% на тестовом наборе Real-Edit, используя в 30 раз меньше данных для обучения и модель в 13 раз меньшего размера.
English
Due to the challenges of manually collecting accurate editing data, existing
datasets are typically constructed using various automated methods, leading to
noisy supervision signals caused by the mismatch between editing instructions
and original-edited image pairs. Recent efforts attempt to improve editing
models through generating higher-quality edited images, pre-training on
recognition tasks, or introducing vision-language models (VLMs) but fail to
resolve this fundamental issue. In this paper, we offer a novel solution by
constructing more effective editing instructions for given image pairs. This
includes rectifying the editing instructions to better align with the
original-edited image pairs and using contrastive editing instructions to
further enhance their effectiveness. Specifically, we find that editing models
exhibit specific generation attributes at different inference steps,
independent of the text. Based on these prior attributes, we define a unified
guide for VLMs to rectify editing instructions. However, there are some
challenging editing scenarios that cannot be resolved solely with rectified
instructions. To this end, we further construct contrastive supervision signals
with positive and negative instructions and introduce them into the model
training using triplet loss, thereby further facilitating supervision
effectiveness. Our method does not require the VLM modules or pre-training
tasks used in previous work, offering a more direct and efficient way to
provide better supervision signals, and providing a novel, simple, and
effective solution for instruction-based image editing. Results on multiple
benchmarks demonstrate that our method significantly outperforms existing
approaches. Compared with previous SOTA SmartEdit, we achieve 9.19%
improvements on the Real-Edit benchmark with 30x less training data and 13x
smaller model size.Summary
AI-Generated Summary