PensareRL-Modifica: Pensare nel Reinforcement Learning per l'Editing di Immagini Centrato sul Ragionamento

Abstract

L'editing di immagini guidato da istruzioni con modelli generativi multimodali unificati è progredito rapidamente, ma il loro ragionamento visivo sottostante rimane limitato, portando a prestazioni subottimali negli editing incentrati sul ragionamento. L'apprendimento per rinforzo (RL) è stato studiato per migliorare la qualità dell'editing di immagini, ma affronta tre sfide principali: (1) esplorazione limitata del ragionamento confinata alla stocasticità del denoising, (2) fusione distorta dei reward, e (3) instabilità dei reward basati su VLM e istruzioni. In questo lavoro, proponiamo ThinkRL-Edit, un framework RL incentrato sul ragionamento che disaccoppia il ragionamento visivo dalla sintesi dell'immagine ed espande l'esplorazione del ragionamento oltre il denoising. A tal fine, introduciamo un campionamento del ragionamento basato su Chain-of-Thought (CoT) con fasi di pianificazione e riflessione prima della generazione nel campionamento online, costringendo il modello a esplorare multiple ipotesi semantiche e verificarne la plausibilità prima di impegnarsi in un risultato visivo. Per evitare i fallimenti dell'aggregazione pesata, proponiamo una strategia di raggruppamento delle preferenze a catena non distorta su più dimensioni di reward. Inoltre, sostituiamo i punteggi VLM basati su intervalli con una checklist binaria, ottenendo reward più precisi, a varianza inferiore e interpretabili per il ragionamento complesso. Gli esperimenti mostrano che il nostro metodo supera significativamente i lavori precedenti nell'editing di immagini incentrato sul ragionamento, producendo editing fedeli alle istruzioni, visivamente coerenti e semanticamente fondati.

English

Instruction-driven image editing with unified multimodal generative models has advanced rapidly, yet their underlying visual reasoning remains limited, leading to suboptimal performance on reasoning-centric edits. Reinforcement learning (RL) has been investigated for improving the quality of image editing, but it faces three key challenges: (1) limited reasoning exploration confined to denoising stochasticity, (2) biased reward fusion, and (3) unstable VLM-based instruction rewards. In this work, we propose ThinkRL-Edit, a reasoning-centric RL framework that decouples visual reasoning from image synthesis and expands reasoning exploration beyond denoising. To the end, we introduce Chain-of-Thought (CoT)-based reasoning sampling with planning and reflection stages prior to generation in online sampling, compelling the model to explore multiple semantic hypotheses and validate their plausibility before committing to a visual outcome. To avoid the failures of weighted aggregation, we propose an unbiased chain preference grouping strategy across multiple reward dimensions. Moreover, we replace interval-based VLM scores with a binary checklist, yielding more precise, lower-variance, and interpretable rewards for complex reasoning. Experiments show our method significantly outperforms prior work on reasoning-centric image editing, producing instruction-faithful, visually coherent, and semantically grounded edits.

PensareRL-Modifica: Pensare nel Reinforcement Learning per l'Editing di Immagini Centrato sul Ragionamento

ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

Abstract

Support