Aprendizaje de un modelo de edición de imágenes sin pares de edición de imágenes.

Resumen

Los modelos recientes de edición de imágenes han logrado resultados impresionantes al seguir instrucciones de edición en lenguaje natural, pero dependen de un ajuste supervisado con grandes conjuntos de datos de pares de entrada y objetivo. Este es un cuello de botella crítico, ya que tales pares que ocurren naturalmente son difíciles de curar a gran escala. Las soluciones actuales utilizan pares de entrenamiento sintéticos que aprovechan las capacidades de cero disparos de los modelos existentes. Sin embargo, esto puede propagar y amplificar los artefactos del modelo preentrenado en el modelo final entrenado. En este trabajo, presentamos un nuevo paradigma de entrenamiento que elimina por completo la necesidad de datos emparejados. Nuestro enfoque optimiza directamente un modelo de difusión de pocos pasos al desplegarlo durante el entrenamiento y aprovechar la retroalimentación de los modelos de visión y lenguaje (VLMs, por sus siglas en inglés). Para cada entrada e instrucción de edición, el VLM evalúa si una edición sigue la instrucción y preserva el contenido sin cambios, proporcionando gradientes directos para la optimización de extremo a extremo. Para garantizar la fidelidad visual, incorporamos una pérdida de coincidencia de distribución (DMD, por sus siglas en inglés), que restringe las imágenes generadas a permanecer dentro de la variedad de imágenes aprendida por los modelos preentrenados. Evaluamos nuestro método en puntos de referencia estándar e incluimos un extenso estudio de ablación. Sin ningún dato emparejado, nuestro método se desempeña a la par con varios modelos de edición de imágenes basados en difusión entrenados con extensos datos supervisados emparejados, en el escenario de pocos pasos. Dado el mismo VLM como modelo de recompensa, también superamos técnicas basadas en aprendizaje por refuerzo como Flow-GRPO.

English

Recent image editing models have achieved impressive results while following natural language editing instructions, but they rely on supervised fine-tuning with large datasets of input-target pairs. This is a critical bottleneck, as such naturally occurring pairs are hard to curate at scale. Current workarounds use synthetic training pairs that leverage the zero-shot capabilities of existing models. However, this can propagate and magnify the artifacts of the pretrained model into the final trained model. In this work, we present a new training paradigm that eliminates the need for paired data entirely. Our approach directly optimizes a few-step diffusion model by unrolling it during training and leveraging feedback from vision-language models (VLMs). For each input and editing instruction, the VLM evaluates if an edit follows the instruction and preserves unchanged content, providing direct gradients for end-to-end optimization. To ensure visual fidelity, we incorporate distribution matching loss (DMD), which constrains generated images to remain within the image manifold learned by pretrained models. We evaluate our method on standard benchmarks and include an extensive ablation study. Without any paired data, our method performs on par with various image editing diffusion models trained on extensive supervised paired data, under the few-step setting. Given the same VLM as the reward model, we also outperform RL-based techniques like Flow-GRPO.

Aprendizaje de un modelo de edición de imágenes sin pares de edición de imágenes.

Learning an Image Editing Model without Image Editing Pairs

Resumen

Support