ChatPaper.aiChatPaper

EditScore: Desbloqueando el Aprendizaje por Refuerzo en Línea para la Edición de Imágenes mediante Modelado de Recompensas de Alta Fidelidad

EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling

September 28, 2025
Autores: Xin Luo, Jiahao Wang, Chenyuan Wu, Shitao Xiao, Xiyan Jiang, Defu Lian, Jiajun Zhang, Dong Liu, Zheng liu
cs.AI

Resumen

La edición de imágenes guiada por instrucciones ha logrado avances notables, sin embargo, los modelos actuales aún enfrentan desafíos con instrucciones complejas y a menudo requieren múltiples muestras para producir un resultado deseado. El Aprendizaje por Refuerzo (RL, por sus siglas en inglés) ofrece una solución prometedora, pero su adopción en la edición de imágenes se ha visto severamente obstaculizada por la falta de una señal de recompensa eficiente y de alta fidelidad. En este trabajo, presentamos una metodología integral para superar esta barrera, centrada en el desarrollo de un modelo de recompensa especializado y de vanguardia. Primero introducimos EditReward-Bench, un punto de referencia integral para evaluar sistemáticamente los modelos de recompensa en la calidad de la edición. Basándonos en este punto de referencia, desarrollamos EditScore, una serie de modelos de recompensa (7B-72B) para evaluar la calidad de la edición de imágenes guiada por instrucciones. A través de una cuidadosa curación y filtrado de datos, EditScore iguala efectivamente el rendimiento de los modelos de lenguaje visual (VLMs) propietarios. Además, junto con una estrategia de auto-ensamblaje efectiva adaptada a la naturaleza generativa de EditScore, nuestra variante más grande incluso supera a GPT-5 en el punto de referencia. Luego demostramos que un modelo de recompensa de alta fidelidad es la clave para desbloquear el RL en línea para la edición de imágenes. Nuestros experimentos muestran que, aunque incluso los VLMs de código abierto más grandes no logran proporcionar una señal de aprendizaje efectiva, EditScore permite una optimización de políticas eficiente y robusta. La aplicación de nuestro marco a un modelo base sólido, OmniGen2, resulta en un modelo final que muestra una mejora sustancial y consistente en el rendimiento. En general, este trabajo proporciona el primer camino sistemático desde la evaluación comparativa hasta el modelado de recompensas y el entrenamiento de RL en la edición de imágenes, demostrando que un modelo de recompensa especializado en el dominio y de alta fidelidad es la clave para desbloquear todo el potencial del RL en este ámbito.
English
Instruction-guided image editing has achieved remarkable progress, yet current models still face challenges with complex instructions and often require multiple samples to produce a desired result. Reinforcement Learning (RL) offers a promising solution, but its adoption in image editing has been severely hindered by the lack of a high-fidelity, efficient reward signal. In this work, we present a comprehensive methodology to overcome this barrier, centered on the development of a state-of-the-art, specialized reward model. We first introduce EditReward-Bench, a comprehensive benchmark to systematically evaluate reward models on editing quality. Building on this benchmark, we develop EditScore, a series of reward models (7B-72B) for evaluating the quality of instruction-guided image editing. Through meticulous data curation and filtering, EditScore effectively matches the performance of learning proprietary VLMs. Furthermore, coupled with an effective self-ensemble strategy tailored for the generative nature of EditScore, our largest variant even surpasses GPT-5 in the benchmark. We then demonstrate that a high-fidelity reward model is the key to unlocking online RL for image editing. Our experiments show that, while even the largest open-source VLMs fail to provide an effective learning signal, EditScore enables efficient and robust policy optimization. Applying our framework to a strong base model, OmniGen2, results in a final model that shows a substantial and consistent performance uplift. Overall, this work provides the first systematic path from benchmarking to reward modeling to RL training in image editing, showing that a high-fidelity, domain-specialized reward model is the key to unlocking the full potential of RL in this domain.
PDF252September 30, 2025