Fiez-vous à votre critique : Modélisation robuste des récompenses et apprentissage par renforcement pour une édition et une génération d'images fidèles
Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation
March 12, 2026
Auteurs: Xiangyu Zhao, Peiyuan Zhang, Junming Lin, Tianhao Liang, Yuchen Duan, Shengyuan Ding, Changyao Tian, Yuhang Zang, Junchi Yan, Xue Yang
cs.AI
Résumé
L'apprentissage par renforcement (RL) s'est imposé comme un paradigme prometteur pour améliorer l'édition d'images et la génération de texte-à-image (T2I). Cependant, les modèles de récompense actuels, qui agissent comme des critiques durant le RL, souffrent souvent d'hallucinations et attribuent des scores bruités, induisant en erreur le processus d'optimisation. Dans cet article, nous présentons FIRM (Faithful Image Reward Modeling), un cadre complet développant des modèles de récompense robustes pour fournir un guidage précis et fiable envers une génération et une édition d'images fidèles. Premièrement, nous concevons des pipelines de curation de données sur mesure pour construire des ensembles de données de scoring de haute qualité. Spécifiquement, nous évaluons l'édition en utilisant à la fois l'exécution et la cohérence, tandis que la génération est principalement évaluée via le suivi des instructions. En utilisant ces pipelines, nous collectons les ensembles de données FIRM-Edit-370K et FIRM-Gen-293K, et entraînons des modèles de récompense spécialisés (FIRM-Edit-8B et FIRM-Gen-8B) qui reflètent fidèlement ces critères. Deuxièmement, nous introduisons FIRM-Bench, un benchmark complet spécialement conçu pour les critiques d'édition et de génération. Les évaluations démontrent que nos modèles atteignent une meilleure alignement avec le jugement humain comparé aux métriques existantes. De plus, pour intégrer de manière transparente ces critiques dans le pipeline RL, nous formulons une nouvelle stratégie de récompense « Base-et-Bonus » qui équilibre les objectifs concurrents : l'Exécution Modulée par la Cohérence (EMC) pour l'édition et l'Alignement Modulé par la Qualité (AMQ) pour la génération. Renforcés par ce cadre, nos modèles résultants FIRM-Qwen-Edit et FIRM-SD3.5 atteignent des avancées substantielles en termes de performances. Des expériences exhaustives démontrent que FIRM atténue les hallucinations, établissant un nouveau standard en matière de fidélité et de respect des instructions par rapport aux modèles généraux existants. L'ensemble de nos ensembles de données, modèles et code sont publics à l'adresse https://firm-reward.github.io.
English
Reinforcement learning (RL) has emerged as a promising paradigm for enhancing image editing and text-to-image (T2I) generation. However, current reward models, which act as critics during RL, often suffer from hallucinations and assign noisy scores, inherently misguiding the optimization process. In this paper, we present FIRM (Faithful Image Reward Modeling), a comprehensive framework that develops robust reward models to provide accurate and reliable guidance for faithful image generation and editing. First, we design tailored data curation pipelines to construct high-quality scoring datasets. Specifically, we evaluate editing using both execution and consistency, while generation is primarily assessed via instruction following. Using these pipelines, we collect the FIRM-Edit-370K and FIRM-Gen-293K datasets, and train specialized reward models (FIRM-Edit-8B and FIRM-Gen-8B) that accurately reflect these criteria. Second, we introduce FIRM-Bench, a comprehensive benchmark specifically designed for editing and generation critics. Evaluations demonstrate that our models achieve superior alignment with human judgment compared to existing metrics. Furthermore, to seamlessly integrate these critics into the RL pipeline, we formulate a novel "Base-and-Bonus" reward strategy that balances competing objectives: Consistency-Modulated Execution (CME) for editing and Quality-Modulated Alignment (QMA) for generation. Empowered by this framework, our resulting models FIRM-Qwen-Edit and FIRM-SD3.5 achieve substantial performance breakthroughs. Comprehensive experiments demonstrate that FIRM mitigates hallucinations, establishing a new standard for fidelity and instruction adherence over existing general models. All of our datasets, models, and code have been publicly available at https://firm-reward.github.io.