Confie no Seu Crítico: Modelagem Robusta de Recompensas e Aprendizado por Reforço para Edição e Geração Fidedigna de Imagens
Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation
March 12, 2026
Autores: Xiangyu Zhao, Peiyuan Zhang, Junming Lin, Tianhao Liang, Yuchen Duan, Shengyuan Ding, Changyao Tian, Yuhang Zang, Junchi Yan, Xue Yang
cs.AI
Resumo
O aprendizado por reforço (RL) emergiu como um paradigma promissor para aprimorar a edição de imagens e a geração de texto para imagem (T2I). No entanto, os modelos de recompensa atuais, que atuam como críticos durante o RL, frequentemente sofrem com alucinações e atribuem pontuações ruidosas, desorientando inerentemente o processo de otimização. Neste artigo, apresentamos o FIRM (Faithful Image Reward Modeling), uma estrutura abrangente que desenvolve modelos de recompensa robustos para fornecer orientação precisa e confiável para a geração e edição fiel de imagens. Primeiro, projetamos pipelines personalizados de curadoria de dados para construir conjuntos de dados de pontuação de alta qualidade. Especificamente, avaliamos a edição usando tanto execução quanto consistência, enquanto a geração é avaliada principalmente por meio do seguimento de instruções. Utilizando esses pipelines, coletamos os conjuntos de dados FIRM-Edit-370K e FIRM-Gen-293K, e treinamos modelos de recompensa especializados (FIRM-Edit-8B e FIRM-Gen-8B) que refletem com precisão esses critérios. Em segundo lugar, introduzimos o FIRM-Bench, um benchmark abrangente especificamente projetado para críticos de edição e geração. As avaliações demonstram que nossos modelos alcançam uma alinhamento superior com o julgamento humano em comparação com as métricas existentes. Além disso, para integrar perfeitamente esses críticos no pipeline de RL, formulamos uma nova estratégia de recompensa "Base-and-Bonus" que equilibra objetivos concorrentes: Execução Modulada por Consistência (CME) para edição e Alinhamento Modulado por Qualidade (QMA) para geração. Impulsionados por esta estrutura, nossos modelos resultantes FIRM-Qwen-Edit e FIRM-SD3.5 alcançam avanços substanciais de desempenho. Experimentos abrangentes demonstram que o FIRM mitiga alucinações, estabelecendo um novo padrão para fidelidade e aderência à instrução em relação aos modelos gerais existentes. Todos os nossos conjuntos de dados, modelos e código estão publicamente disponíveis em https://firm-reward.github.io.
English
Reinforcement learning (RL) has emerged as a promising paradigm for enhancing image editing and text-to-image (T2I) generation. However, current reward models, which act as critics during RL, often suffer from hallucinations and assign noisy scores, inherently misguiding the optimization process. In this paper, we present FIRM (Faithful Image Reward Modeling), a comprehensive framework that develops robust reward models to provide accurate and reliable guidance for faithful image generation and editing. First, we design tailored data curation pipelines to construct high-quality scoring datasets. Specifically, we evaluate editing using both execution and consistency, while generation is primarily assessed via instruction following. Using these pipelines, we collect the FIRM-Edit-370K and FIRM-Gen-293K datasets, and train specialized reward models (FIRM-Edit-8B and FIRM-Gen-8B) that accurately reflect these criteria. Second, we introduce FIRM-Bench, a comprehensive benchmark specifically designed for editing and generation critics. Evaluations demonstrate that our models achieve superior alignment with human judgment compared to existing metrics. Furthermore, to seamlessly integrate these critics into the RL pipeline, we formulate a novel "Base-and-Bonus" reward strategy that balances competing objectives: Consistency-Modulated Execution (CME) for editing and Quality-Modulated Alignment (QMA) for generation. Empowered by this framework, our resulting models FIRM-Qwen-Edit and FIRM-SD3.5 achieve substantial performance breakthroughs. Comprehensive experiments demonstrate that FIRM mitigates hallucinations, establishing a new standard for fidelity and instruction adherence over existing general models. All of our datasets, models, and code have been publicly available at https://firm-reward.github.io.