Aprovechamiento del Aprendizaje por Refuerzo Basado en Verificadores en la Edición de Imágenes
Leveraging Verifier-Based Reinforcement Learning in Image Editing
April 30, 2026
Autores: Hanzhong Guo, Jie Wu, Jie Liu, Yu Gao, Zilyu Ye, Linxiao Yuan, Xionghui Wang, Yizhou Yu, Weilin Huang
cs.AI
Resumen
Si bien el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) se ha convertido en un paradigma fundamental para la generación de imágenes a partir de texto, su aplicación a la edición de imágenes sigue estando en gran medida inexplorada. Un cuello de botella clave es la falta de un modelo de recompensa general y robusto para todas las tareas de edición. Los modelos de recompensa de edición existentes suelen asignar puntuaciones globales sin realizar comprobaciones detalladas, ignorando los diferentes requisitos de las instrucciones y generando recompensas sesgadas. Para abordar este problema, sostenemos que la clave es pasar de un simple evaluador a un verificador con razonamiento. Presentamos Edit-R1, un marco de trabajo que construye un modelo de recompensa basado en razonamiento (RRM) utilizando un verificador de cadena de pensamiento (CoT) y luego lo aprovecha para la edición de imágenes subsiguiente. El Edit-RRM desglosa las instrucciones en principios distintos, evalúa la imagen editada frente a cada principio y agrega estas comprobaciones en una recompensa interpretable y de grano fino. Para construir dicho RRM, primero aplicamos el ajuste fino supervisado (SFT) como un "arranque en frío" para generar trayectorias de recompensa CoT. Luego, introducimos la Optimización de Preferencias por Contraste Grupal (GCPO), un algoritmo de aprendizaje por refuerzo que utiliza datos de preferencias humanas por pares para reforzar nuestro RRM de tipo "pointwise". Después de construir el RRM, utilizamos GRPO para entrenar modelos de edición con este modelo de recompensa no diferenciable pero potente. Experimentos exhaustivos demuestran que nuestro Edit-RRM supera a modelos de lenguaje visual (VLM) potentes como Seed-1.5-VL y Seed-1.6-VL como modelo de recompensa específico para edición, y observamos una clara tendencia de escalabilidad, con un rendimiento que mejora consistentemente de 3B a 7B de parámetros. Además, Edit-R1 proporciona mejoras a modelos de edición como FLUX.1-kontext, destacando su eficacia para potenciar la edición de imágenes.
English
While Reinforcement Learning from Human Feedback (RLHF) has become a pivotal paradigm for text-to-image generation, its application to image editing remains largely unexplored. A key bottleneck is the lack of a robust general reward model for all editing tasks. Existing edit reward models usually give overall scores without detailed checks, ignoring different instruction requirements and causing biased rewards. To address this, we argue that the key is to move from a simple scorer to a reasoning verifier. We introduce Edit-R1, a framework that builds a chain-of-thought (CoT) verifier-based reasoning reward model (RRM) and then leverages it for downstream image editing. The Edit-RRM breaks instructions into distinct principles, evaluates the edited image against each principle, and aggregates these checks into an interpretable, fine-grained reward. To build such an RRM, we first apply supervised fine-tuning (SFT) as a ``cold-start'' to generate CoT reward trajectories. Then, we introduce Group Contrastive Preference Optimization (GCPO), a reinforcement learning algorithm that leverages human pairwise preference data to reinforce our pointwise RRM. After building the RRM, we use GRPO to train editing models with this non-differentiable yet powerful reward model. Extensive experiments demonstrate that our Edit-RRM surpasses powerful VLMs such as Seed-1.5-VL and Seed-1.6-VL as an editing-specific reward model, and we observe a clear scaling trend, with performance consistently improving from 3B to 7B parameters. Moreover, Edit-R1 delivers gains to editing models like FLUX.1-kontext, highlighting its effectiveness in enhancing image editing.