Een beeldbewerkingsmodel leren zonder beeldbewerkingsparen

Samenvatting

Recente beeldbewerkingsmodellen hebben indrukwekkende resultaten behaald bij het volgen van natuurlijke taal instructies voor bewerkingen, maar ze zijn afhankelijk van supervised fine-tuning met grote datasets van invoer-doelparen. Dit vormt een kritieke bottleneck, aangezien dergelijke natuurlijk voorkomende paren moeilijk op grote schaal te verzamelen zijn. Huidige oplossingen gebruiken synthetische trainingsparen die gebruikmaken van de zero-shot mogelijkheden van bestaande modellen. Dit kan echter de artefacten van het vooraf getrainde model doorgeven en versterken in het uiteindelijk getrainde model. In dit werk presenteren we een nieuwe trainingsparadigma dat de noodzaak van gepaarde data volledig elimineert. Onze aanpak optimaliseert direct een few-step diffusiemodel door het tijdens de training uit te rollen en feedback te benutten van vision-language modellen (VLMs). Voor elke invoer en bewerkingsinstructie evalueert het VLM of een bewerking de instructie volgt en ongewijzigde inhoud behoudt, wat directe gradients biedt voor end-to-end optimalisatie. Om visuele trouw te waarborgen, integreren we een distribution matching loss (DMD), die ervoor zorgt dat gegenereerde afbeeldingen binnen het beeldmanifold blijven dat is geleerd door vooraf getrainde modellen. We evalueren onze methode op standaard benchmarks en voeren een uitgebreide ablatiestudie uit. Zonder enige gepaarde data presteert onze methode op hetzelfde niveau als verschillende beeldbewerkingsdiffusiemodellen die zijn getraind op uitgebreide supervised gepaarde data, onder de few-step instelling. Met hetzelfde VLM als beloningsmodel overtreffen we ook RL-gebaseerde technieken zoals Flow-GRPO.

English

Recent image editing models have achieved impressive results while following natural language editing instructions, but they rely on supervised fine-tuning with large datasets of input-target pairs. This is a critical bottleneck, as such naturally occurring pairs are hard to curate at scale. Current workarounds use synthetic training pairs that leverage the zero-shot capabilities of existing models. However, this can propagate and magnify the artifacts of the pretrained model into the final trained model. In this work, we present a new training paradigm that eliminates the need for paired data entirely. Our approach directly optimizes a few-step diffusion model by unrolling it during training and leveraging feedback from vision-language models (VLMs). For each input and editing instruction, the VLM evaluates if an edit follows the instruction and preserves unchanged content, providing direct gradients for end-to-end optimization. To ensure visual fidelity, we incorporate distribution matching loss (DMD), which constrains generated images to remain within the image manifold learned by pretrained models. We evaluate our method on standard benchmarks and include an extensive ablation study. Without any paired data, our method performs on par with various image editing diffusion models trained on extensive supervised paired data, under the few-step setting. Given the same VLM as the reward model, we also outperform RL-based techniques like Flow-GRPO.

Een beeldbewerkingsmodel leren zonder beeldbewerkingsparen

Learning an Image Editing Model without Image Editing Pairs

Samenvatting

Support