Benutting van Verificateur-Gestuurd Versterkingsleren bij Beeldbewerking

Samenvatting

Hoewel Reinforcement Learning from Human Feedback (RLHF) een cruciaal paradigma is geworden voor tekst-naar-beeldgeneratie, blijft de toepassing ervan op beeldbewerking grotendeels onontgonnen. Een belangrijke bottleneck is het ontbreken van een robuust algemeen beloningsmodel voor alle bewerkingstaken. Bestaande beloningsmodellen voor bewerkingen geven meestal algemene scores zonder gedetailleerde controles, negeren verschillende instructievereisten en veroorzaken daardoor vertekende beloningen. Om dit aan te pakken, stellen wij dat de sleutel ligt in de overgang van een eenvoudige scorer naar een redenerende verifier. Wij introduceren Edit-R1, een raamwerk dat een op een chain-of-thought (CoT) verifier gebaseerd redenerend beloningsmodel (RRM) bouwt en dit vervolgens benut voor downstream beeldbewerking. Het Edit-RRM breekt instructies op in afzonderlijke principes, evalueert de bewerkte afbeelding tegen elk principe, en aggregeert deze controles tot een interpreteerbare, fijnmazige beloning. Om een dergelijk RRM te bouwen, passen we eerst supervised fine-tuning (SFT) toe als een "cold-start" om CoT-beloningstrajecten te genereren. Vervolgens introduceren we Group Contrastive Preference Optimization (GCPO), een reinforcement learning-algoritme dat gebruikmaakt van menselijke gepaarde voorkeursdata om ons puntsgewijze RRM te versterken. Na het bouwen van het RRM gebruiken we GRPO om bewerkingsmodellen te trainen met dit niet-differentieerbare maar krachtige beloningsmodel. Uitgebreide experimenten tonen aan dat ons Edit-RRM krachtige VLMs zoals Seed-1.5-VL en Seed-1.6-VL overtreft als een bewerkingsspecifiek beloningsmodel, en we observeren een duidelijke schaalwet, waarbij de prestaties consistent verbeteren van 3B naar 7B parameters. Bovendien levert Edit-R1 verbeteringen op voor bewerkingsmodellen zoals FLUX.1-kontext, wat de effectiviteit ervan bij het verbeteren van beeldbewerking benadrukt.

English

While Reinforcement Learning from Human Feedback (RLHF) has become a pivotal paradigm for text-to-image generation, its application to image editing remains largely unexplored. A key bottleneck is the lack of a robust general reward model for all editing tasks. Existing edit reward models usually give overall scores without detailed checks, ignoring different instruction requirements and causing biased rewards. To address this, we argue that the key is to move from a simple scorer to a reasoning verifier. We introduce Edit-R1, a framework that builds a chain-of-thought (CoT) verifier-based reasoning reward model (RRM) and then leverages it for downstream image editing. The Edit-RRM breaks instructions into distinct principles, evaluates the edited image against each principle, and aggregates these checks into an interpretable, fine-grained reward. To build such an RRM, we first apply supervised fine-tuning (SFT) as a ``cold-start'' to generate CoT reward trajectories. Then, we introduce Group Contrastive Preference Optimization (GCPO), a reinforcement learning algorithm that leverages human pairwise preference data to reinforce our pointwise RRM. After building the RRM, we use GRPO to train editing models with this non-differentiable yet powerful reward model. Extensive experiments demonstrate that our Edit-RRM surpasses powerful VLMs such as Seed-1.5-VL and Seed-1.6-VL as an editing-specific reward model, and we observe a clear scaling trend, with performance consistently improving from 3B to 7B parameters. Moreover, Edit-R1 delivers gains to editing models like FLUX.1-kontext, highlighting its effectiveness in enhancing image editing.

Benutting van Verificateur-Gestuurd Versterkingsleren bij Beeldbewerking

Leveraging Verifier-Based Reinforcement Learning in Image Editing

Samenvatting

Support