Обучение модели редактирования изображений без пар редактирования изображений
Learning an Image Editing Model without Image Editing Pairs
October 16, 2025
Авторы: Nupur Kumari, Sheng-Yu Wang, Nanxuan Zhao, Yotam Nitzan, Yuheng Li, Krishna Kumar Singh, Richard Zhang, Eli Shechtman, Jun-Yan Zhu, Xun Huang
cs.AI
Аннотация
Последние модели редактирования изображений достигли впечатляющих результатов, следуя инструкциям на естественном языке, однако они полагаются на контролируемое тонкое обучение с использованием больших наборов данных, состоящих из пар "вход-цель". Это представляет собой серьезное ограничение, поскольку такие естественно возникающие пары сложно масштабировать. Существующие обходные пути используют синтетические обучающие пары, которые задействуют возможности существующих моделей в режиме "zero-shot". Однако это может распространять и усиливать артефакты предварительно обученной модели в итоговой обученной модели. В данной работе мы представляем новую парадигму обучения, которая полностью устраняет необходимость в парных данных. Наш подход напрямую оптимизирует модель диффузии с небольшим количеством шагов, разворачивая её в процессе обучения и используя обратную связь от моделей "визуальный язык" (VLM). Для каждого входного изображения и инструкции по редактированию VLM оценивает, соответствует ли редактирование инструкции и сохраняет ли неизменное содержимое, предоставляя прямые градиенты для сквозной оптимизации. Для обеспечения визуальной достоверности мы включаем функцию потерь на основе сопоставления распределений (DMD), которая ограничивает сгенерированные изображения в рамках многообразия, изученного предварительно обученными моделями. Мы оцениваем наш метод на стандартных бенчмарках и проводим обширное исследование с исключением компонентов. Без использования парных данных наш метод демонстрирует результаты, сопоставимые с различными моделями редактирования изображений на основе диффузии, обученными на обширных контролируемых парных данных, в условиях небольшого количества шагов. При использовании того же VLM в качестве модели вознаграждения мы также превосходим методы, основанные на обучении с подкреплением, такие как Flow-GRPO.
English
Recent image editing models have achieved impressive results while following
natural language editing instructions, but they rely on supervised fine-tuning
with large datasets of input-target pairs. This is a critical bottleneck, as
such naturally occurring pairs are hard to curate at scale. Current workarounds
use synthetic training pairs that leverage the zero-shot capabilities of
existing models. However, this can propagate and magnify the artifacts of the
pretrained model into the final trained model. In this work, we present a new
training paradigm that eliminates the need for paired data entirely. Our
approach directly optimizes a few-step diffusion model by unrolling it during
training and leveraging feedback from vision-language models (VLMs). For each
input and editing instruction, the VLM evaluates if an edit follows the
instruction and preserves unchanged content, providing direct gradients for
end-to-end optimization. To ensure visual fidelity, we incorporate distribution
matching loss (DMD), which constrains generated images to remain within the
image manifold learned by pretrained models. We evaluate our method on standard
benchmarks and include an extensive ablation study. Without any paired data,
our method performs on par with various image editing diffusion models trained
on extensive supervised paired data, under the few-step setting. Given the same
VLM as the reward model, we also outperform RL-based techniques like Flow-GRPO.