Sfruttare l'Apprendimento per Rinforzo Basato su Verificatori nell'Editing di Immagini
Leveraging Verifier-Based Reinforcement Learning in Image Editing
April 30, 2026
Autori: Hanzhong Guo, Jie Wu, Jie Liu, Yu Gao, Zilyu Ye, Linxiao Yuan, Xionghui Wang, Yizhou Yu, Weilin Huang
cs.AI
Abstract
Sebbene l'apprendimento per rinforzo da feedback umano (RLHF) sia diventato un paradigma fondamentale per la generazione di immagini da testo, la sua applicazione all'editing di immagini rimane in gran parte inesplorata. Un collo di bottiglia chiave è la mancanza di un modello di reward generale e robusto per tutti i compiti di modifica. I modelli di reward per l'editing esistenti di solito forniscono punteggi complessivi senza controlli dettagliati, ignorando i diversi requisiti delle istruzioni e causando reward distorti. Per affrontare questo problema, sosteniamo che la chiave sia passare da un semplice sistema di scoring a un verificatore dotato di ragionamento. Introduciamo Edit-R1, un framework che costruisce un modello di reward basato sul ragionamento (RRM) tramite un verificatore a catena di pensiero (CoT) e successivamente lo sfrutta per l'editing di immagini downstream. L'Edit-RRM scompone le istruzioni in principi distinti, valuta l'immagine modificata rispetto a ciascun principio e aggrega questi controlli in un reward interpretabile e a grana fine. Per costruire un tale RRM, applichiamo prima un fine-tuning supervisionato (SFT) come "avvio a freddo" per generare traiettorie di reward CoT. Successivamente, introduciamo l'ottimizzazione delle preferenze contrastive di gruppo (GCPO), un algoritmo di apprendimento per rinforzo che sfrutta dati di preferenze umane a coppie per rinforzare il nostro RRM pointwise. Dopo aver costruito l'RRM, utilizziamo il GRPO per addestrare modelli di editing con questo modello di reward non differenziabile ma potente. Esperimenti estensivi dimostrano che il nostro Edit-RRM supera potenti modelli linguistici visivi (VLM) come Seed-1.5-VL e Seed-1.6-VL come modello di reward specifico per l'editing, e osserviamo un chiaro trend di scalabilità, con le prestazioni che migliorano costantemente da 3 a 7 miliardi di parametri. Inoltre, Edit-R1 apporta vantaggi a modelli di editing come FLUX.1-kontext, evidenziando la sua efficacia nel migliorare l'editing delle immagini.
English
While Reinforcement Learning from Human Feedback (RLHF) has become a pivotal paradigm for text-to-image generation, its application to image editing remains largely unexplored. A key bottleneck is the lack of a robust general reward model for all editing tasks. Existing edit reward models usually give overall scores without detailed checks, ignoring different instruction requirements and causing biased rewards. To address this, we argue that the key is to move from a simple scorer to a reasoning verifier. We introduce Edit-R1, a framework that builds a chain-of-thought (CoT) verifier-based reasoning reward model (RRM) and then leverages it for downstream image editing. The Edit-RRM breaks instructions into distinct principles, evaluates the edited image against each principle, and aggregates these checks into an interpretable, fine-grained reward. To build such an RRM, we first apply supervised fine-tuning (SFT) as a ``cold-start'' to generate CoT reward trajectories. Then, we introduce Group Contrastive Preference Optimization (GCPO), a reinforcement learning algorithm that leverages human pairwise preference data to reinforce our pointwise RRM. After building the RRM, we use GRPO to train editing models with this non-differentiable yet powerful reward model. Extensive experiments demonstrate that our Edit-RRM surpasses powerful VLMs such as Seed-1.5-VL and Seed-1.6-VL as an editing-specific reward model, and we observe a clear scaling trend, with performance consistently improving from 3B to 7B parameters. Moreover, Edit-R1 delivers gains to editing models like FLUX.1-kontext, highlighting its effectiveness in enhancing image editing.