Apprentissage d'un modèle de retouche d'images sans paires de retouche

papers.abstract

Les modèles récents d'édition d'images ont obtenu des résultats impressionnants en suivant des instructions d'édition en langage naturel, mais ils reposent sur un ajustement supervisé avec de grands ensembles de données de paires entrée-cible. Cela constitue un goulot d'étranglement critique, car de telles paires naturellement disponibles sont difficiles à constituer à grande échelle. Les solutions actuelles utilisent des paires d'entraînement synthétiques qui exploitent les capacités zero-shot des modèles existants. Cependant, cela peut propager et amplifier les artefacts du modèle pré-entraîné dans le modèle final entraîné. Dans ce travail, nous présentons un nouveau paradigme d'entraînement qui élimine entièrement le besoin de données appariées. Notre approche optimise directement un modèle de diffusion en quelques étapes en le déroulant pendant l'entraînement et en exploitant les retours des modèles vision-langage (VLMs). Pour chaque entrée et instruction d'édition, le VLM évalue si une modification suit l'instruction et préserve le contenu inchangé, fournissant des gradients directs pour une optimisation de bout en bout. Pour garantir la fidélité visuelle, nous intégrons une perte de correspondance de distribution (DMD), qui contraint les images générées à rester dans la variété d'images apprise par les modèles pré-entraînés. Nous évaluons notre méthode sur des benchmarks standard et incluons une étude d'ablation approfondie. Sans aucune donnée appariée, notre méthode performe au même niveau que divers modèles de diffusion d'édition d'images entraînés sur des données appariées supervisées étendues, dans le cadre d'un réglage en quelques étapes. Avec le même VLM comme modèle de récompense, nous surpassons également les techniques basées sur l'apprentissage par renforcement comme Flow-GRPO.

English

Recent image editing models have achieved impressive results while following natural language editing instructions, but they rely on supervised fine-tuning with large datasets of input-target pairs. This is a critical bottleneck, as such naturally occurring pairs are hard to curate at scale. Current workarounds use synthetic training pairs that leverage the zero-shot capabilities of existing models. However, this can propagate and magnify the artifacts of the pretrained model into the final trained model. In this work, we present a new training paradigm that eliminates the need for paired data entirely. Our approach directly optimizes a few-step diffusion model by unrolling it during training and leveraging feedback from vision-language models (VLMs). For each input and editing instruction, the VLM evaluates if an edit follows the instruction and preserves unchanged content, providing direct gradients for end-to-end optimization. To ensure visual fidelity, we incorporate distribution matching loss (DMD), which constrains generated images to remain within the image manifold learned by pretrained models. We evaluate our method on standard benchmarks and include an extensive ablation study. Without any paired data, our method performs on par with various image editing diffusion models trained on extensive supervised paired data, under the few-step setting. Given the same VLM as the reward model, we also outperform RL-based techniques like Flow-GRPO.

Apprentissage d'un modèle de retouche d'images sans paires de retouche

Learning an Image Editing Model without Image Editing Pairs

papers.abstract

Support