ChatPaper.aiChatPaper

ThinkRL-Edit:推論中心の画像編集における強化学習的思考

ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

January 6, 2026
著者: Hengjia Li, Liming Jiang, Qing Yan, Yizhi Song, Hao Kang, Zichuan Liu, Xin Lu, Boxi Wu, Deng Cai
cs.AI

要旨

マルチモーダル生成モデルを用いた指令駆動型画像編集は急速に進歩しているが、その基盤となる視覚的推論能力は依然として限定的であり、推論を要する編集タスクでは十分な性能が発揮されていない。強化学習(RL)は画像編集の品質向上に応用されているが、(1)確率的ノイズ除去に限定された推論探索、(2)偏った報酬の統合、(3)VLMベースの指令報酬の不安定性、という3つの課題に直面している。本研究では、視覚推論と画像合成を分離し、ノイズ除去を超えた推論探索を可能とする推論中心のRLフレームワーク「ThinkRL-Edit」を提案する。具体的には、オンラインサンプリングにおける生成前の計画段階と振り返り段階を含むChain-of-Thought(CoT)に基づく推論サンプリングを導入し、視覚的結果を確定させる前に複数の意味的仮説を探索し、その妥当性を検証することをモデルに促す。重み付き集約の失敗を回避するため、複数の報酬次元にわたる偏りのない連鎖選好グループ化戦略を提案する。さらに、区間ベースのVLMスコアを二値チェックリストに置き換えることで、複雑な推論に対するより正確で分散が小さく、解釈可能な報酬を実現する。実験により、本手法が推論中心の画像編集において従来手法を大幅に上回り、指令に忠実で視覚的一貫性があり、意味的に根拠のある編集を生成することを示す。
English
Instruction-driven image editing with unified multimodal generative models has advanced rapidly, yet their underlying visual reasoning remains limited, leading to suboptimal performance on reasoning-centric edits. Reinforcement learning (RL) has been investigated for improving the quality of image editing, but it faces three key challenges: (1) limited reasoning exploration confined to denoising stochasticity, (2) biased reward fusion, and (3) unstable VLM-based instruction rewards. In this work, we propose ThinkRL-Edit, a reasoning-centric RL framework that decouples visual reasoning from image synthesis and expands reasoning exploration beyond denoising. To the end, we introduce Chain-of-Thought (CoT)-based reasoning sampling with planning and reflection stages prior to generation in online sampling, compelling the model to explore multiple semantic hypotheses and validate their plausibility before committing to a visual outcome. To avoid the failures of weighted aggregation, we propose an unbiased chain preference grouping strategy across multiple reward dimensions. Moreover, we replace interval-based VLM scores with a binary checklist, yielding more precise, lower-variance, and interpretable rewards for complex reasoning. Experiments show our method significantly outperforms prior work on reasoning-centric image editing, producing instruction-faithful, visually coherent, and semantically grounded edits.
PDF30January 9, 2026