ChatPaper.aiChatPaper

Lernen eines Bildbearbeitungsmodells ohne Bildbearbeitungspaare

Learning an Image Editing Model without Image Editing Pairs

October 16, 2025
papers.authors: Nupur Kumari, Sheng-Yu Wang, Nanxuan Zhao, Yotam Nitzan, Yuheng Li, Krishna Kumar Singh, Richard Zhang, Eli Shechtman, Jun-Yan Zhu, Xun Huang
cs.AI

papers.abstract

Aktuelle Bildbearbeitungsmodelle haben beeindruckende Ergebnisse erzielt, indem sie natürliche Sprachbearbeitungsanweisungen befolgen, doch sie stützen sich auf überwachtes Feinabstimmen mit großen Datensätzen von Eingabe-Ziel-Paaren. Dies stellt einen kritischen Engpass dar, da solche natürlich vorkommenden Paare nur schwer in großem Maßstab kuratiert werden können. Aktuelle Lösungsansätze verwenden synthetische Trainingspaare, die die Zero-Shot-Fähigkeiten bestehender Modelle nutzen. Dies kann jedoch die Artefakte des vortrainierten Modells in das final trainierte Modell übertragen und verstärken. In dieser Arbeit präsentieren wir ein neues Trainingsparadigma, das den Bedarf an gepaarten Daten vollständig eliminiert. Unser Ansatz optimiert direkt ein Diffusionsmodell mit wenigen Schritten, indem es während des Trainings entfaltet wird und Feedback von Vision-Language-Modellen (VLMs) nutzt. Für jede Eingabe und Bearbeitungsanweisung bewertet das VLM, ob eine Bearbeitung der Anweisung folgt und unveränderte Inhalte bewahrt, wodurch direkte Gradienten für die End-to-End-Optimierung bereitgestellt werden. Um visuelle Treue zu gewährleisten, integrieren wir einen Distribution Matching Loss (DMD), der generierte Bilder innerhalb des von vortrainierten Modellen erlernten Bildmanifolds hält. Wir evaluieren unsere Methode anhand standardisierter Benchmarks und führen eine umfangreiche Ablationsstudie durch. Ohne gepaarte Daten erreicht unsere Methode vergleichbare Ergebnisse wie verschiedene Bildbearbeitungs-Diffusionsmodelle, die mit umfangreichen überwachten gepaarten Daten trainiert wurden, im Rahmen der Few-Step-Einstellung. Bei Verwendung desselben VLM als Belohnungsmodell übertreffen wir auch RL-basierte Techniken wie Flow-GRPO.
English
Recent image editing models have achieved impressive results while following natural language editing instructions, but they rely on supervised fine-tuning with large datasets of input-target pairs. This is a critical bottleneck, as such naturally occurring pairs are hard to curate at scale. Current workarounds use synthetic training pairs that leverage the zero-shot capabilities of existing models. However, this can propagate and magnify the artifacts of the pretrained model into the final trained model. In this work, we present a new training paradigm that eliminates the need for paired data entirely. Our approach directly optimizes a few-step diffusion model by unrolling it during training and leveraging feedback from vision-language models (VLMs). For each input and editing instruction, the VLM evaluates if an edit follows the instruction and preserves unchanged content, providing direct gradients for end-to-end optimization. To ensure visual fidelity, we incorporate distribution matching loss (DMD), which constrains generated images to remain within the image manifold learned by pretrained models. We evaluate our method on standard benchmarks and include an extensive ablation study. Without any paired data, our method performs on par with various image editing diffusion models trained on extensive supervised paired data, under the few-step setting. Given the same VLM as the reward model, we also outperform RL-based techniques like Flow-GRPO.
PDF62October 17, 2025