ChatPaper.aiChatPaper

PensareRL-Modifica: Pensare nel Reinforcement Learning per l'Editing di Immagini Centrato sul Ragionamento

ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

January 6, 2026
Autori: Hengjia Li, Liming Jiang, Qing Yan, Yizhi Song, Hao Kang, Zichuan Liu, Xin Lu, Boxi Wu, Deng Cai
cs.AI

Abstract

L'editing di immagini guidato da istruzioni con modelli generativi multimodali unificati è progredito rapidamente, ma il loro ragionamento visivo sottostante rimane limitato, portando a prestazioni subottimali negli editing incentrati sul ragionamento. L'apprendimento per rinforzo (RL) è stato studiato per migliorare la qualità dell'editing di immagini, ma affronta tre sfide principali: (1) esplorazione limitata del ragionamento confinata alla stocasticità del denoising, (2) fusione distorta dei reward, e (3) instabilità dei reward basati su VLM e istruzioni. In questo lavoro, proponiamo ThinkRL-Edit, un framework RL incentrato sul ragionamento che disaccoppia il ragionamento visivo dalla sintesi dell'immagine ed espande l'esplorazione del ragionamento oltre il denoising. A tal fine, introduciamo un campionamento del ragionamento basato su Chain-of-Thought (CoT) con fasi di pianificazione e riflessione prima della generazione nel campionamento online, costringendo il modello a esplorare multiple ipotesi semantiche e verificarne la plausibilità prima di impegnarsi in un risultato visivo. Per evitare i fallimenti dell'aggregazione pesata, proponiamo una strategia di raggruppamento delle preferenze a catena non distorta su più dimensioni di reward. Inoltre, sostituiamo i punteggi VLM basati su intervalli con una checklist binaria, ottenendo reward più precisi, a varianza inferiore e interpretabili per il ragionamento complesso. Gli esperimenti mostrano che il nostro metodo supera significativamente i lavori precedenti nell'editing di immagini incentrato sul ragionamento, producendo editing fedeli alle istruzioni, visivamente coerenti e semanticamente fondati.
English
Instruction-driven image editing with unified multimodal generative models has advanced rapidly, yet their underlying visual reasoning remains limited, leading to suboptimal performance on reasoning-centric edits. Reinforcement learning (RL) has been investigated for improving the quality of image editing, but it faces three key challenges: (1) limited reasoning exploration confined to denoising stochasticity, (2) biased reward fusion, and (3) unstable VLM-based instruction rewards. In this work, we propose ThinkRL-Edit, a reasoning-centric RL framework that decouples visual reasoning from image synthesis and expands reasoning exploration beyond denoising. To the end, we introduce Chain-of-Thought (CoT)-based reasoning sampling with planning and reflection stages prior to generation in online sampling, compelling the model to explore multiple semantic hypotheses and validate their plausibility before committing to a visual outcome. To avoid the failures of weighted aggregation, we propose an unbiased chain preference grouping strategy across multiple reward dimensions. Moreover, we replace interval-based VLM scores with a binary checklist, yielding more precise, lower-variance, and interpretable rewards for complex reasoning. Experiments show our method significantly outperforms prior work on reasoning-centric image editing, producing instruction-faithful, visually coherent, and semantically grounded edits.
PDF71February 7, 2026