ChatPaper.aiChatPaper

ThinkRL-Edit: Pensar en Aprendizaje por Refuerzo para la Edición de Imágenes Centrada en el Razonamiento

ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

January 6, 2026
Autores: Hengjia Li, Liming Jiang, Qing Yan, Yizhi Song, Hao Kang, Zichuan Liu, Xin Lu, Boxi Wu, Deng Cai
cs.AI

Resumen

La edición de imágenes impulsada por instrucciones con modelos generativos multimodales unificados ha avanzado rápidamente, pero su razonamiento visual subyacente sigue siendo limitado, lo que conduce a un rendimiento subóptimo en ediciones centradas en el razonamiento. El aprendizaje por refuerzo (RL) se ha investigado para mejorar la calidad de la edición de imágenes, pero enfrenta tres desafíos clave: (1) exploración limitada del razonamiento confinada a la estocasticidad de la eliminación de ruido, (2) fusión sesgada de recompensas, y (3) inestabilidad de las recompensas basadas en instrucciones de modelos de lenguaje visual (VLM). En este trabajo, proponemos ThinkRL-Edit, un marco de RL centrado en el razonamiento que desacopla el razonamiento visual de la síntesis de imágenes y expande la exploración del razonamiento más allá de la eliminación de ruido. Para ello, introducimos un muestreo de razonamiento basado en Cadena de Pensamiento (CoT) con etapas de planificación y reflexión previas a la generación en el muestreo en línea, obligando al modelo a explorar múltiples hipótesis semánticas y validar su plausibilidad antes de comprometerse con un resultado visual. Para evitar los fallos de la agregación ponderada, proponemos una estrategia de agrupación de preferencias en cadena no sesgada a través de múltiples dimensiones de recompensa. Además, reemplazamos las puntuaciones VLM basadas en intervalos con una lista binaria de verificación, obteniendo recompensas más precisas, de menor varianza e interpretables para el razonamiento complejo. Los experimentos muestran que nuestro método supera significativamente a trabajos anteriores en edición de imágenes centrada en el razonamiento, produciendo ediciones fieles a la instrucción, visualmente coherentes y semánticamente fundamentadas.
English
Instruction-driven image editing with unified multimodal generative models has advanced rapidly, yet their underlying visual reasoning remains limited, leading to suboptimal performance on reasoning-centric edits. Reinforcement learning (RL) has been investigated for improving the quality of image editing, but it faces three key challenges: (1) limited reasoning exploration confined to denoising stochasticity, (2) biased reward fusion, and (3) unstable VLM-based instruction rewards. In this work, we propose ThinkRL-Edit, a reasoning-centric RL framework that decouples visual reasoning from image synthesis and expands reasoning exploration beyond denoising. To the end, we introduce Chain-of-Thought (CoT)-based reasoning sampling with planning and reflection stages prior to generation in online sampling, compelling the model to explore multiple semantic hypotheses and validate their plausibility before committing to a visual outcome. To avoid the failures of weighted aggregation, we propose an unbiased chain preference grouping strategy across multiple reward dimensions. Moreover, we replace interval-based VLM scores with a binary checklist, yielding more precise, lower-variance, and interpretable rewards for complex reasoning. Experiments show our method significantly outperforms prior work on reasoning-centric image editing, producing instruction-faithful, visually coherent, and semantically grounded edits.
PDF30January 9, 2026