Een beeldbewerkingsmodel leren zonder beeldbewerkingsparen
Learning an Image Editing Model without Image Editing Pairs
October 16, 2025
Auteurs: Nupur Kumari, Sheng-Yu Wang, Nanxuan Zhao, Yotam Nitzan, Yuheng Li, Krishna Kumar Singh, Richard Zhang, Eli Shechtman, Jun-Yan Zhu, Xun Huang
cs.AI
Samenvatting
Recente beeldbewerkingsmodellen hebben indrukwekkende resultaten behaald bij het volgen van natuurlijke taal instructies voor bewerkingen, maar ze zijn afhankelijk van supervised fine-tuning met grote datasets van invoer-doelparen. Dit vormt een kritieke bottleneck, aangezien dergelijke natuurlijk voorkomende paren moeilijk op grote schaal te verzamelen zijn. Huidige oplossingen gebruiken synthetische trainingsparen die gebruikmaken van de zero-shot mogelijkheden van bestaande modellen. Dit kan echter de artefacten van het vooraf getrainde model doorgeven en versterken in het uiteindelijk getrainde model. In dit werk presenteren we een nieuwe trainingsparadigma dat de noodzaak van gepaarde data volledig elimineert. Onze aanpak optimaliseert direct een few-step diffusiemodel door het tijdens de training uit te rollen en feedback te benutten van vision-language modellen (VLMs). Voor elke invoer en bewerkingsinstructie evalueert het VLM of een bewerking de instructie volgt en ongewijzigde inhoud behoudt, wat directe gradients biedt voor end-to-end optimalisatie. Om visuele trouw te waarborgen, integreren we een distribution matching loss (DMD), die ervoor zorgt dat gegenereerde afbeeldingen binnen het beeldmanifold blijven dat is geleerd door vooraf getrainde modellen. We evalueren onze methode op standaard benchmarks en voeren een uitgebreide ablatiestudie uit. Zonder enige gepaarde data presteert onze methode op hetzelfde niveau als verschillende beeldbewerkingsdiffusiemodellen die zijn getraind op uitgebreide supervised gepaarde data, onder de few-step instelling. Met hetzelfde VLM als beloningsmodel overtreffen we ook RL-gebaseerde technieken zoals Flow-GRPO.
English
Recent image editing models have achieved impressive results while following
natural language editing instructions, but they rely on supervised fine-tuning
with large datasets of input-target pairs. This is a critical bottleneck, as
such naturally occurring pairs are hard to curate at scale. Current workarounds
use synthetic training pairs that leverage the zero-shot capabilities of
existing models. However, this can propagate and magnify the artifacts of the
pretrained model into the final trained model. In this work, we present a new
training paradigm that eliminates the need for paired data entirely. Our
approach directly optimizes a few-step diffusion model by unrolling it during
training and leveraging feedback from vision-language models (VLMs). For each
input and editing instruction, the VLM evaluates if an edit follows the
instruction and preserves unchanged content, providing direct gradients for
end-to-end optimization. To ensure visual fidelity, we incorporate distribution
matching loss (DMD), which constrains generated images to remain within the
image manifold learned by pretrained models. We evaluate our method on standard
benchmarks and include an extensive ablation study. Without any paired data,
our method performs on par with various image editing diffusion models trained
on extensive supervised paired data, under the few-step setting. Given the same
VLM as the reward model, we also outperform RL-based techniques like Flow-GRPO.