ThinkRL-Edit: Мышление в рамках обучения с подкреплением для редактирования изображений, ориентированного на рассуждения
ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing
January 6, 2026
Авторы: Hengjia Li, Liming Jiang, Qing Yan, Yizhi Song, Hao Kang, Zichuan Liu, Xin Lu, Boxi Wu, Deng Cai
cs.AI
Аннотация
Инструктивно-управляемое редактирование изображений с помощью унифицированных мультимодальных генеративных моделей быстро развивается, однако их базовые возможности визуального рассуждения остаются ограниченными, что приводит к неоптимальной производительности при редактировании, требующем рассуждений. Для повышения качества редактирования изображений исследовалось обучение с подкреплением (RL), однако оно сталкивается с тремя ключевыми проблемами: (1) ограниченное исследование пространства рассуждений, сводящееся к стохастичности денойзинга, (2) смещенное объединение вознаграждений и (3) нестабильные инструктивные вознаграждения на основе VLM. В данной работе мы предлагаем ThinkRL-Edit, RL-фреймворк, ориентированный на рассуждения, который разделяет визуальные рассуждения и синтез изображений и расширяет исследование рассуждений за пределы денойзинга. Для этого мы вводим семплирование рассуждений на основе цепочки мыслей (Chain-of-Thought, CoT) с этапами планирования и рефлексии до генерации в онлайн-семплировании, заставляя модель исследовать несколько семантических гипотез и проверять их правдоподобность до фиксации визуального результата. Чтобы избежать недостатков взвешенной агрегации, мы предлагаем несмещенную стратегию группировки предпочтений по цепочкам для множества измерений вознаграждения. Кроме того, мы заменяем интервальные оценки VLM бинарным контрольным списком, что дает более точные, менее дисперсные и интерпретируемые вознаграждения для сложных рассуждений. Эксперименты показывают, что наш метод значительно превосходит предыдущие работы по редактированию изображений, ориентированному на рассуждения, обеспечивая правдоподобные, визуально согласованные и семантически обоснованные правки, соответствующие инструкции.
English
Instruction-driven image editing with unified multimodal generative models has advanced rapidly, yet their underlying visual reasoning remains limited, leading to suboptimal performance on reasoning-centric edits. Reinforcement learning (RL) has been investigated for improving the quality of image editing, but it faces three key challenges: (1) limited reasoning exploration confined to denoising stochasticity, (2) biased reward fusion, and (3) unstable VLM-based instruction rewards. In this work, we propose ThinkRL-Edit, a reasoning-centric RL framework that decouples visual reasoning from image synthesis and expands reasoning exploration beyond denoising. To the end, we introduce Chain-of-Thought (CoT)-based reasoning sampling with planning and reflection stages prior to generation in online sampling, compelling the model to explore multiple semantic hypotheses and validate their plausibility before committing to a visual outcome. To avoid the failures of weighted aggregation, we propose an unbiased chain preference grouping strategy across multiple reward dimensions. Moreover, we replace interval-based VLM scores with a binary checklist, yielding more precise, lower-variance, and interpretable rewards for complex reasoning. Experiments show our method significantly outperforms prior work on reasoning-centric image editing, producing instruction-faithful, visually coherent, and semantically grounded edits.