Recompensa de Edición: Un Modelo de Recompensa Alineado con Humanos para la Edición de Imágenes Guiada por Instrucciones
EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing
September 30, 2025
Autores: Keming Wu, Sicong Jiang, Max Ku, Ping Nie, Minghao Liu, Wenhu Chen
cs.AI
Resumen
Recientemente, hemos sido testigos de grandes avances en la edición de imágenes mediante instrucciones en lenguaje natural. Varios modelos de código cerrado, como GPT-Image-1, Seedream y Google-Nano-Banana, han mostrado un progreso altamente prometedor. Sin embargo, los modelos de código abierto aún se están quedando atrás. El principal cuello de botella es la falta de un modelo de recompensa confiable para escalar datos de entrenamiento sintéticos de alta calidad. Para abordar este cuello de botella crítico, construimos \mname, entrenado con nuestro nuevo conjunto de datos a gran escala de preferencias humanas, meticulosamente anotado por expertos capacitados siguiendo un protocolo riguroso que contiene más de 200K pares de preferencias. \mname demuestra una alineación superior con las preferencias humanas en tareas de edición de imágenes guiadas por instrucciones. Los experimentos muestran que \mname alcanza una correlación humana de vanguardia en puntos de referencia establecidos como GenAI-Bench, AURORA-Bench, ImagenHub y nuestro nuevo \benchname, superando a una amplia gama de modelos VLM-as-judge. Además, utilizamos \mname para seleccionar un subconjunto de alta calidad del conjunto de datos ruidoso existente ShareGPT-4o-Image. Entrenamos Step1X-Edit en el subconjunto seleccionado, lo que muestra una mejora significativa en comparación con el entrenamiento en el conjunto completo. Esto demuestra la capacidad de \mname para servir como un modelo de recompensa para escalar datos de entrenamiento de alta calidad para la edición de imágenes. Además, su fuerte alineación sugiere un potencial para aplicaciones avanzadas como el ajuste posterior basado en aprendizaje por refuerzo y la escalabilidad en tiempo de prueba de modelos de edición de imágenes. \mname, junto con su conjunto de datos de entrenamiento, será liberado para ayudar a la comunidad a construir más conjuntos de datos de entrenamiento de alta calidad para la edición de imágenes.
English
Recently, we have witnessed great progress in image editing with natural
language instructions. Several closed-source models like GPT-Image-1, Seedream,
and Google-Nano-Banana have shown highly promising progress. However, the
open-source models are still lagging. The main bottleneck is the lack of a
reliable reward model to scale up high-quality synthetic training data. To
address this critical bottleneck, we built \mname, trained with our new
large-scale human preference dataset, meticulously annotated by trained experts
following a rigorous protocol containing over 200K preference pairs. \mname
demonstrates superior alignment with human preferences in instruction-guided
image editing tasks. Experiments show that \mname achieves state-of-the-art
human correlation on established benchmarks such as GenAI-Bench, AURORA-Bench,
ImagenHub, and our new \benchname, outperforming a wide range of VLM-as-judge
models. Furthermore, we use \mname to select a high-quality subset from the
existing noisy ShareGPT-4o-Image dataset. We train Step1X-Edit on the selected
subset, which shows significant improvement over training on the full set. This
demonstrates \mname's ability to serve as a reward model to scale up
high-quality training data for image editing. Furthermore, its strong alignment
suggests potential for advanced applications like reinforcement learning-based
post-training and test-time scaling of image editing models. \mname with its
training dataset will be released to help the community build more high-quality
image editing training datasets.