Vertrouw op uw criticus: Robuuste beloningsmodellering en reinforcement learning voor getrouwe beeldbewerking en -generatie
Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation
March 12, 2026
Auteurs: Xiangyu Zhao, Peiyuan Zhang, Junming Lin, Tianhao Liang, Yuchen Duan, Shengyuan Ding, Changyao Tian, Yuhang Zang, Junchi Yan, Xue Yang
cs.AI
Samenvatting
Versterkend leren (RL) is naar voren gekomen als een veelbelovend paradigma voor het verbeteren van beeldbewerking en tekst-naar-beeld (T2I) generatie. Huidige beloningsmodellen, die fungeren als criticasters tijdens RL, lijden echter vaak aan hallucinaties en kennen ruisachtige scores toe, waardoor het optimalisatieproces inherent misleid wordt. In dit artikel presenteren we FIRM (Faithful Image Reward Modeling), een uitgebreid raamwerk dat robuuste beloningsmodellen ontwikkelt om accurate en betrouwbare begeleiding te bieden voor getrouwe beeldgeneratie en -bewerking. Ten eerste ontwerpen we op maat gemaakte data-curatiepijplijnen om hoogwaardige scoringsdatasets te construeren. Specifiek evalueren we bewerking aan de hand van zowel uitvoering als consistentie, terwijl generatie voornamelijk wordt beoordeeld via instructie-opvolging. Met behulp van deze pijplijnen verzamelen we de FIRM-Edit-370K en FIRM-Gen-293K datasets, en trainen we gespecialiseerde beloningsmodellen (FIRM-Edit-8B en FIRM-Gen-8B) die deze criteria nauwkeurig weerspiegelen. Ten tweede introduceren we FIRM-Bench, een uitgebreide benchmark die specifiek is ontworpen voor criticasters voor bewerking en generatie. Evaluaties tonen aan dat onze modellen een superieure afstemming met menselijk oordeel bereiken in vergelijking met bestaande metrieken. Verder formuleren we, om deze criticasters naadloos in de RL-pijplijn te integreren, een nieuwe "Base-and-Bonus" beloningsstrategie die concurrerende doelstellingen in evenwicht brengt: Consistency-Modulated Execution (CME) voor bewerking en Quality-Modulated Alignment (QMA) voor generatie. Gefaciliteerd door dit raamwerk bereiken onze resulterende modellen FIRM-Qwen-Edit en FIRM-SD3.5 aanzienlijke doorbraken in prestaties. Uitgebreide experimenten tonen aan dat FIRM hallucinaties vermindert en een nieuwe standaard vestigt voor getrouwheid en instructienaleving ten opzichte van bestaande algemene modellen. Al onze datasets, modellen en code zijn openbaar beschikbaar op https://firm-reward.github.io.
English
Reinforcement learning (RL) has emerged as a promising paradigm for enhancing image editing and text-to-image (T2I) generation. However, current reward models, which act as critics during RL, often suffer from hallucinations and assign noisy scores, inherently misguiding the optimization process. In this paper, we present FIRM (Faithful Image Reward Modeling), a comprehensive framework that develops robust reward models to provide accurate and reliable guidance for faithful image generation and editing. First, we design tailored data curation pipelines to construct high-quality scoring datasets. Specifically, we evaluate editing using both execution and consistency, while generation is primarily assessed via instruction following. Using these pipelines, we collect the FIRM-Edit-370K and FIRM-Gen-293K datasets, and train specialized reward models (FIRM-Edit-8B and FIRM-Gen-8B) that accurately reflect these criteria. Second, we introduce FIRM-Bench, a comprehensive benchmark specifically designed for editing and generation critics. Evaluations demonstrate that our models achieve superior alignment with human judgment compared to existing metrics. Furthermore, to seamlessly integrate these critics into the RL pipeline, we formulate a novel "Base-and-Bonus" reward strategy that balances competing objectives: Consistency-Modulated Execution (CME) for editing and Quality-Modulated Alignment (QMA) for generation. Empowered by this framework, our resulting models FIRM-Qwen-Edit and FIRM-SD3.5 achieve substantial performance breakthroughs. Comprehensive experiments demonstrate that FIRM mitigates hallucinations, establishing a new standard for fidelity and instruction adherence over existing general models. All of our datasets, models, and code have been publicly available at https://firm-reward.github.io.