ChatPaper.aiChatPaper

ThinkRL-Edit: 추론 중심 이미지 편집을 위한 강화 학습 사고

ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

January 6, 2026
저자: Hengjia Li, Liming Jiang, Qing Yan, Yizhi Song, Hao Kang, Zichuan Liu, Xin Lu, Boxi Wu, Deng Cai
cs.AI

초록

다분야 생성 모델을 활용한 지시어 기반 이미지 편집 기술은 빠르게 발전했으나, 내재된 시각 추론 능력의 한계로 인해 추론 중심 편집에서의 성능은 아직 미흡한 실정입니다. 강화학습(RL)은 이미지 편집 품질 향상을 위해 연구되어 왔지만, (1) 확률적 노이즈 제거 과정에 국한된 제한된 추론 탐색, (2) 편향된 보상 융합, (3) 불안정한 VLM 기반 지시어 보상이라는 세 가지 주요 과제에 직면해 있습니다. 본 연구에서는 시각 추론과 이미지 합성을 분리하고 노이즈 제거를 넘어선 추론 탐색을 확장하는 추론 중심 RL 프레임워크인 ThinkRL-Edit를 제안합니다. 이를 위해 온라인 샘플링 과정에서 생성 전에 계획 및 성찰 단계를 포함하는 연쇄 사고(CoT) 기반 추론 샘플링을 도입하여, 모델이 시각적 결과를 확정하기 전에 여러 의미론적 가설을 탐색하고 타당성을 검증하도록 유도합니다. 또한 가중치 기반 집계의 실패를 피하기 위해 다중 보상 차원에 걸친 편향 없는 체인 선호도 그룹화 전략을 제안합니다. 더 나아가 구간 기반 VLM 점수를 이진 체크리스트로 대체하여 복잡한 추론에 대해 더 정확하고 분산이 낮으며 해석 가능한 보상을 제공합니다. 실험 결과, 우리의 방법은 추론 중심 이미지 편집에서 기존 연구를 크게 능가하며, 지시어에 충실하고 시각적으로 일관성 있으며 의미론적으로 타당한 편집 결과를 생성함을 확인했습니다.
English
Instruction-driven image editing with unified multimodal generative models has advanced rapidly, yet their underlying visual reasoning remains limited, leading to suboptimal performance on reasoning-centric edits. Reinforcement learning (RL) has been investigated for improving the quality of image editing, but it faces three key challenges: (1) limited reasoning exploration confined to denoising stochasticity, (2) biased reward fusion, and (3) unstable VLM-based instruction rewards. In this work, we propose ThinkRL-Edit, a reasoning-centric RL framework that decouples visual reasoning from image synthesis and expands reasoning exploration beyond denoising. To the end, we introduce Chain-of-Thought (CoT)-based reasoning sampling with planning and reflection stages prior to generation in online sampling, compelling the model to explore multiple semantic hypotheses and validate their plausibility before committing to a visual outcome. To avoid the failures of weighted aggregation, we propose an unbiased chain preference grouping strategy across multiple reward dimensions. Moreover, we replace interval-based VLM scores with a binary checklist, yielding more precise, lower-variance, and interpretable rewards for complex reasoning. Experiments show our method significantly outperforms prior work on reasoning-centric image editing, producing instruction-faithful, visually coherent, and semantically grounded edits.
PDF30January 9, 2026