Apprentissage d'un modèle de retouche d'images sans paires de retouche
Learning an Image Editing Model without Image Editing Pairs
October 16, 2025
papers.authors: Nupur Kumari, Sheng-Yu Wang, Nanxuan Zhao, Yotam Nitzan, Yuheng Li, Krishna Kumar Singh, Richard Zhang, Eli Shechtman, Jun-Yan Zhu, Xun Huang
cs.AI
papers.abstract
Les modèles récents d'édition d'images ont obtenu des résultats impressionnants en suivant des instructions d'édition en langage naturel, mais ils reposent sur un ajustement supervisé avec de grands ensembles de données de paires entrée-cible. Cela constitue un goulot d'étranglement critique, car de telles paires naturellement disponibles sont difficiles à constituer à grande échelle. Les solutions actuelles utilisent des paires d'entraînement synthétiques qui exploitent les capacités zero-shot des modèles existants. Cependant, cela peut propager et amplifier les artefacts du modèle pré-entraîné dans le modèle final entraîné. Dans ce travail, nous présentons un nouveau paradigme d'entraînement qui élimine entièrement le besoin de données appariées. Notre approche optimise directement un modèle de diffusion en quelques étapes en le déroulant pendant l'entraînement et en exploitant les retours des modèles vision-langage (VLMs). Pour chaque entrée et instruction d'édition, le VLM évalue si une modification suit l'instruction et préserve le contenu inchangé, fournissant des gradients directs pour une optimisation de bout en bout. Pour garantir la fidélité visuelle, nous intégrons une perte de correspondance de distribution (DMD), qui contraint les images générées à rester dans la variété d'images apprise par les modèles pré-entraînés. Nous évaluons notre méthode sur des benchmarks standard et incluons une étude d'ablation approfondie. Sans aucune donnée appariée, notre méthode performe au même niveau que divers modèles de diffusion d'édition d'images entraînés sur des données appariées supervisées étendues, dans le cadre d'un réglage en quelques étapes. Avec le même VLM comme modèle de récompense, nous surpassons également les techniques basées sur l'apprentissage par renforcement comme Flow-GRPO.
English
Recent image editing models have achieved impressive results while following
natural language editing instructions, but they rely on supervised fine-tuning
with large datasets of input-target pairs. This is a critical bottleneck, as
such naturally occurring pairs are hard to curate at scale. Current workarounds
use synthetic training pairs that leverage the zero-shot capabilities of
existing models. However, this can propagate and magnify the artifacts of the
pretrained model into the final trained model. In this work, we present a new
training paradigm that eliminates the need for paired data entirely. Our
approach directly optimizes a few-step diffusion model by unrolling it during
training and leveraging feedback from vision-language models (VLMs). For each
input and editing instruction, the VLM evaluates if an edit follows the
instruction and preserves unchanged content, providing direct gradients for
end-to-end optimization. To ensure visual fidelity, we incorporate distribution
matching loss (DMD), which constrains generated images to remain within the
image manifold learned by pretrained models. We evaluate our method on standard
benchmarks and include an extensive ablation study. Without any paired data,
our method performs on par with various image editing diffusion models trained
on extensive supervised paired data, under the few-step setting. Given the same
VLM as the reward model, we also outperform RL-based techniques like Flow-GRPO.