Nutzung von verifikatorbasiertem bestärkendem Lernen in der Bildbearbeitung
Leveraging Verifier-Based Reinforcement Learning in Image Editing
April 30, 2026
Autoren: Hanzhong Guo, Jie Wu, Jie Liu, Yu Gao, Zilyu Ye, Linxiao Yuan, Xionghui Wang, Yizhou Yu, Weilin Huang
cs.AI
Zusammenfassung
Während Reinforcement Learning from Human Feedback (RLHF) zu einem zentralen Paradigma für die Text-zu-Bild-Generierung geworden ist, ist seine Anwendung auf die Bildbearbeitung weitgehend unerforscht. Ein entscheidender Engpass ist das Fehlen eines robusten, allgemeinen Belohnungsmodells für alle Bearbeitungsaufgaben. Bestehende Belohnungsmodelle für die Bearbeitung vergeben meist Gesamtbewertungen ohne detaillierte Prüfungen, ignorieren dabei unterschiedliche Anweisungsanforderungen und verursachen verzerrte Belohnungen. Um dieses Problem zu lösen, argumentieren wir, dass der Schlüssel darin liegt, von einem einfachen Bewerter zu einem verstehenden Prüfer überzugehen. Wir stellen Edit-R1 vor, ein Framework, das ein verstandsbasiertes Belohnungsmodell (Reasoning Reward Model, RRM) aufbaut, das auf einem Chain-of-Thought (CoT) Prüfer basiert, und dieses dann für die nachgelagerte Bildbearbeitung nutzbar macht. Das Edit-RRM unterteilt Anweisungen in verschiedene Prinzipien, bewertet das bearbeitete Bild anhand jedes Prinzips und aggregiert diese Prüfungen zu einer interpretierbaren, feingranularen Belohnung. Um ein solches RRM aufzubauen, wenden wir zunächst supervised Fine-Tuning (SFT) als „Cold-Start“ an, um CoT-Belohnungstrajektorien zu generieren. Anschließend führen wir Group Contrastive Preference Optimization (GCPO) ein, einen Reinforcement-Learning-Algorithmus, der menschliche paarweise Präferenzdaten nutzt, um unser punktbasiertes RRM zu verstärken. Nach dem Aufbau des RRM verwenden wir GRPO, um Bearbeitungsmodelle mit diesem nicht-differenzierbaren, aber leistungsstarken Belohnungsmodell zu trainieren. Umfangreiche Experimente zeigen, dass unser Edit-RRM leistungsstarke VLMs wie Seed-1.5-VL und Seed-1.6-VL als bearbeitungsspezifisches Belohnungsmodell übertrifft, und wir beobachten einen klaren Skalierungstrend, bei dem die Leistung von 3B auf 7B Parameter konsistent ansteigt. Darüber hinaus bringt Edit-R1 Verbesserungen für Bearbeitungsmodelle wie FLUX.1-kontext, was seine Wirksamkeit bei der Verbesserung der Bildbearbeitung unterstreicht.
English
While Reinforcement Learning from Human Feedback (RLHF) has become a pivotal paradigm for text-to-image generation, its application to image editing remains largely unexplored. A key bottleneck is the lack of a robust general reward model for all editing tasks. Existing edit reward models usually give overall scores without detailed checks, ignoring different instruction requirements and causing biased rewards. To address this, we argue that the key is to move from a simple scorer to a reasoning verifier. We introduce Edit-R1, a framework that builds a chain-of-thought (CoT) verifier-based reasoning reward model (RRM) and then leverages it for downstream image editing. The Edit-RRM breaks instructions into distinct principles, evaluates the edited image against each principle, and aggregates these checks into an interpretable, fine-grained reward. To build such an RRM, we first apply supervised fine-tuning (SFT) as a ``cold-start'' to generate CoT reward trajectories. Then, we introduce Group Contrastive Preference Optimization (GCPO), a reinforcement learning algorithm that leverages human pairwise preference data to reinforce our pointwise RRM. After building the RRM, we use GRPO to train editing models with this non-differentiable yet powerful reward model. Extensive experiments demonstrate that our Edit-RRM surpasses powerful VLMs such as Seed-1.5-VL and Seed-1.6-VL as an editing-specific reward model, and we observe a clear scaling trend, with performance consistently improving from 3B to 7B parameters. Moreover, Edit-R1 delivers gains to editing models like FLUX.1-kontext, highlighting its effectiveness in enhancing image editing.