SuperEdit: Rectificación y Facilitación de la Supervisión para la Edición de Imágenes Basada en Instrucciones
SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing
May 5, 2025
Autores: Ming Li, Xin Gu, Fan Chen, Xiaoying Xing, Longyin Wen, Chen Chen, Sijie Zhu
cs.AI
Resumen
Debido a los desafíos de recopilar manualmente datos de edición precisos, los conjuntos de datos existentes suelen construirse utilizando diversos métodos automatizados, lo que genera señales de supervisión ruidosas debido a la falta de correspondencia entre las instrucciones de edición y los pares de imágenes originales y editadas. Los esfuerzos recientes intentan mejorar los modelos de edición mediante la generación de imágenes editadas de mayor calidad, el preentrenamiento en tareas de reconocimiento o la introducción de modelos de visión y lenguaje (VLMs), pero no logran resolver este problema fundamental. En este artículo, ofrecemos una solución novedosa mediante la construcción de instrucciones de edición más efectivas para pares de imágenes dados. Esto incluye rectificar las instrucciones de edición para alinearlas mejor con los pares de imágenes originales y editadas, y utilizar instrucciones de edición contrastivas para mejorar aún más su efectividad. Específicamente, encontramos que los modelos de edición exhiben atributos de generación específicos en diferentes pasos de inferencia, independientemente del texto. Basándonos en estos atributos previos, definimos una guía unificada para los VLMs para rectificar las instrucciones de edición. Sin embargo, existen algunos escenarios de edición desafiantes que no pueden resolverse únicamente con instrucciones rectificadas. Para ello, construimos señales de supervisión contrastivas con instrucciones positivas y negativas y las introducimos en el entrenamiento del modelo utilizando la pérdida por tripletes, facilitando así aún más la efectividad de la supervisión. Nuestro método no requiere los módulos VLM ni las tareas de preentrenamiento utilizadas en trabajos anteriores, ofreciendo una forma más directa y eficiente de proporcionar mejores señales de supervisión, y brindando una solución novedosa, simple y efectiva para la edición de imágenes basada en instrucciones. Los resultados en múltiples benchmarks demuestran que nuestro método supera significativamente a los enfoques existentes. En comparación con el anterior SOTA SmartEdit, logramos mejoras del 9.19% en el benchmark Real-Edit con 30 veces menos datos de entrenamiento y un tamaño de modelo 13 veces más pequeño.
English
Due to the challenges of manually collecting accurate editing data, existing
datasets are typically constructed using various automated methods, leading to
noisy supervision signals caused by the mismatch between editing instructions
and original-edited image pairs. Recent efforts attempt to improve editing
models through generating higher-quality edited images, pre-training on
recognition tasks, or introducing vision-language models (VLMs) but fail to
resolve this fundamental issue. In this paper, we offer a novel solution by
constructing more effective editing instructions for given image pairs. This
includes rectifying the editing instructions to better align with the
original-edited image pairs and using contrastive editing instructions to
further enhance their effectiveness. Specifically, we find that editing models
exhibit specific generation attributes at different inference steps,
independent of the text. Based on these prior attributes, we define a unified
guide for VLMs to rectify editing instructions. However, there are some
challenging editing scenarios that cannot be resolved solely with rectified
instructions. To this end, we further construct contrastive supervision signals
with positive and negative instructions and introduce them into the model
training using triplet loss, thereby further facilitating supervision
effectiveness. Our method does not require the VLM modules or pre-training
tasks used in previous work, offering a more direct and efficient way to
provide better supervision signals, and providing a novel, simple, and
effective solution for instruction-based image editing. Results on multiple
benchmarks demonstrate that our method significantly outperforms existing
approaches. Compared with previous SOTA SmartEdit, we achieve 9.19%
improvements on the Real-Edit benchmark with 30x less training data and 13x
smaller model size.Summary
AI-Generated Summary