Apprendere un modello di editing di immagini senza coppie di immagini modificate
Learning an Image Editing Model without Image Editing Pairs
October 16, 2025
Autori: Nupur Kumari, Sheng-Yu Wang, Nanxuan Zhao, Yotam Nitzan, Yuheng Li, Krishna Kumar Singh, Richard Zhang, Eli Shechtman, Jun-Yan Zhu, Xun Huang
cs.AI
Abstract
I recenti modelli di editing di immagini hanno ottenuto risultati impressionanti seguendo istruzioni di modifica in linguaggio naturale, ma si basano su un fine-tuning supervisionato con ampi dataset di coppie input-target. Questo rappresenta un collo di bottiglia critico, poiché tali coppie che si verificano naturalmente sono difficili da curare su larga scala. Le soluzioni attuali utilizzano coppie di training sintetiche che sfruttano le capacità zero-shot dei modelli esistenti. Tuttavia, ciò può propagare e amplificare gli artefatti del modello pre-addestrato nel modello finale addestrato. In questo lavoro, presentiamo un nuovo paradigma di training che elimina del tutto la necessità di dati accoppiati. Il nostro approccio ottimizza direttamente un modello di diffusione a pochi passi srotolandolo durante il training e sfruttando il feedback da modelli visione-linguaggio (VLM). Per ogni input e istruzione di modifica, il VLM valuta se una modifica segue l'istruzione e preserva il contenuto invariato, fornendo gradienti diretti per l'ottimizzazione end-to-end. Per garantire la fedeltà visiva, incorporiamo una perdita di corrispondenza della distribuzione (DMD), che vincola le immagini generate a rimanere all'interno della varietà di immagini appresa dai modelli pre-addestrati. Valutiamo il nostro metodo su benchmark standard e includiamo un ampio studio di ablazione. Senza alcun dato accoppiato, il nostro metodo si comporta alla pari con vari modelli di editing di immagini basati su diffusione addestrati su ampi dati supervisionati accoppiati, nell'ambito del setting a pochi passi. Utilizzando lo stesso VLM come modello di ricompensa, superiamo anche tecniche basate su RL come Flow-GRPO.
English
Recent image editing models have achieved impressive results while following
natural language editing instructions, but they rely on supervised fine-tuning
with large datasets of input-target pairs. This is a critical bottleneck, as
such naturally occurring pairs are hard to curate at scale. Current workarounds
use synthetic training pairs that leverage the zero-shot capabilities of
existing models. However, this can propagate and magnify the artifacts of the
pretrained model into the final trained model. In this work, we present a new
training paradigm that eliminates the need for paired data entirely. Our
approach directly optimizes a few-step diffusion model by unrolling it during
training and leveraging feedback from vision-language models (VLMs). For each
input and editing instruction, the VLM evaluates if an edit follows the
instruction and preserves unchanged content, providing direct gradients for
end-to-end optimization. To ensure visual fidelity, we incorporate distribution
matching loss (DMD), which constrains generated images to remain within the
image manifold learned by pretrained models. We evaluate our method on standard
benchmarks and include an extensive ablation study. Without any paired data,
our method performs on par with various image editing diffusion models trained
on extensive supervised paired data, under the few-step setting. Given the same
VLM as the reward model, we also outperform RL-based techniques like Flow-GRPO.