ChatPaper.aiChatPaper

Confíe en su crítico: Modelado robusto de recompensas y aprendizaje por refuerzo para la edición y generación fiel de imágenes

Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

March 12, 2026
Autores: Xiangyu Zhao, Peiyuan Zhang, Junming Lin, Tianhao Liang, Yuchen Duan, Shengyuan Ding, Changyao Tian, Yuhang Zang, Junchi Yan, Xue Yang
cs.AI

Resumen

El aprendizaje por refuerzo (RL) se ha consolidado como un paradigma prometedor para mejorar la edición de imágenes y la generación de texto a imagen (T2I). Sin embargo, los modelos de recompensa actuales, que actúan como críticos durante el RL, a menudo adolecen de alucinaciones y asignan puntuaciones ruidosas, desviando inherentemente el proceso de optimización. En este artículo, presentamos FIRM (Faithful Image Reward Modeling), un marco integral que desarrolla modelos de recompensa robustos para proporcionar una guía precisa y fiable para la generación y edición fiel de imágenes. En primer lugar, diseñamos pipelines de curación de datos personalizados para construir conjuntos de datos de puntuación de alta calidad. Específicamente, evaluamos la edición utilizando tanto la ejecución como la consistencia, mientras que la generación se evalúa principalmente mediante el seguimiento de instrucciones. Utilizando estas pipelines, recopilamos los conjuntos de datos FIRM-Edit-370K y FIRM-Gen-293K, y entrenamos modelos de recompensa especializados (FIRM-Edit-8B y FIRM-Gen-8B) que reflejan con precisión estos criterios. En segundo lugar, presentamos FIRM-Bench, un benchmark integral diseñado específicamente para críticos de edición y generación. Las evaluaciones demuestran que nuestros modelos logran una alineación superior con el juicio humano en comparación con las métricas existentes. Además, para integrar perfectamente estos críticos en la pipeline de RL, formulamos una novedosa estrategia de recompensa "Base-and-Bonus" que equilibra objetivos en competencia: Ejecución Modulada por Consistencia (CME) para la edición y Alineación Modulada por Calidad (QMA) para la generación. Potenciados por este marco, nuestros modelos resultantes FIRM-Qwen-Edit y FIRM-SD3.5 logran avances sustanciales en el rendimiento. Experimentos exhaustivos demuestran que FIRM mitiga las alucinaciones, estableciendo un nuevo estándar de fidelidad y adherencia a las instrucciones sobre los modelos generales existentes. Todos nuestros conjuntos de datos, modelos y código están disponibles públicamente en https://firm-reward.github.io.
English
Reinforcement learning (RL) has emerged as a promising paradigm for enhancing image editing and text-to-image (T2I) generation. However, current reward models, which act as critics during RL, often suffer from hallucinations and assign noisy scores, inherently misguiding the optimization process. In this paper, we present FIRM (Faithful Image Reward Modeling), a comprehensive framework that develops robust reward models to provide accurate and reliable guidance for faithful image generation and editing. First, we design tailored data curation pipelines to construct high-quality scoring datasets. Specifically, we evaluate editing using both execution and consistency, while generation is primarily assessed via instruction following. Using these pipelines, we collect the FIRM-Edit-370K and FIRM-Gen-293K datasets, and train specialized reward models (FIRM-Edit-8B and FIRM-Gen-8B) that accurately reflect these criteria. Second, we introduce FIRM-Bench, a comprehensive benchmark specifically designed for editing and generation critics. Evaluations demonstrate that our models achieve superior alignment with human judgment compared to existing metrics. Furthermore, to seamlessly integrate these critics into the RL pipeline, we formulate a novel "Base-and-Bonus" reward strategy that balances competing objectives: Consistency-Modulated Execution (CME) for editing and Quality-Modulated Alignment (QMA) for generation. Empowered by this framework, our resulting models FIRM-Qwen-Edit and FIRM-SD3.5 achieve substantial performance breakthroughs. Comprehensive experiments demonstrate that FIRM mitigates hallucinations, establishing a new standard for fidelity and instruction adherence over existing general models. All of our datasets, models, and code have been publicly available at https://firm-reward.github.io.
PDF222March 15, 2026