Aprendendo um Modelo de Edição de Imagens sem Pares de Edição de Imagens
Learning an Image Editing Model without Image Editing Pairs
October 16, 2025
Autores: Nupur Kumari, Sheng-Yu Wang, Nanxuan Zhao, Yotam Nitzan, Yuheng Li, Krishna Kumar Singh, Richard Zhang, Eli Shechtman, Jun-Yan Zhu, Xun Huang
cs.AI
Resumo
Modelos recentes de edição de imagens têm alcançado resultados impressionantes ao seguir instruções de edição em linguagem natural, mas eles dependem de ajuste fino supervisionado com grandes conjuntos de dados de pares entrada-alvo. Este é um gargalo crítico, uma vez que tais pares que ocorrem naturalmente são difíceis de curar em escala. Soluções atuais utilizam pares de treinamento sintéticos que aproveitam as capacidades zero-shot de modelos existentes. No entanto, isso pode propagar e amplificar os artefatos do modelo pré-treinado no modelo final treinado. Neste trabalho, apresentamos um novo paradigma de treinamento que elimina completamente a necessidade de dados pareados. Nossa abordagem otimiza diretamente um modelo de difusão de poucos passos, desenrolando-o durante o treinamento e aproveitando o feedback de modelos de visão e linguagem (VLMs). Para cada entrada e instrução de edição, o VLM avalia se uma edição segue a instrução e preserva o conteúdo inalterado, fornecendo gradientes diretos para otimização de ponta a ponta. Para garantir fidelidade visual, incorporamos a perda de correspondência de distribuição (DMD), que restringe as imagens geradas a permanecerem dentro da variedade de imagens aprendida por modelos pré-treinados. Avaliamos nosso método em benchmarks padrão e incluímos um extenso estudo de ablação. Sem nenhum dado pareado, nosso método tem desempenho comparável a vários modelos de edição de imagens baseados em difusão treinados com extensos dados pareados supervisionados, na configuração de poucos passos. Dado o mesmo VLM como modelo de recompensa, também superamos técnicas baseadas em RL, como Flow-GRPO.
English
Recent image editing models have achieved impressive results while following
natural language editing instructions, but they rely on supervised fine-tuning
with large datasets of input-target pairs. This is a critical bottleneck, as
such naturally occurring pairs are hard to curate at scale. Current workarounds
use synthetic training pairs that leverage the zero-shot capabilities of
existing models. However, this can propagate and magnify the artifacts of the
pretrained model into the final trained model. In this work, we present a new
training paradigm that eliminates the need for paired data entirely. Our
approach directly optimizes a few-step diffusion model by unrolling it during
training and leveraging feedback from vision-language models (VLMs). For each
input and editing instruction, the VLM evaluates if an edit follows the
instruction and preserves unchanged content, providing direct gradients for
end-to-end optimization. To ensure visual fidelity, we incorporate distribution
matching loss (DMD), which constrains generated images to remain within the
image manifold learned by pretrained models. We evaluate our method on standard
benchmarks and include an extensive ablation study. Without any paired data,
our method performs on par with various image editing diffusion models trained
on extensive supervised paired data, under the few-step setting. Given the same
VLM as the reward model, we also outperform RL-based techniques like Flow-GRPO.