Fidati del tuo critico: Modellazione robusta delle ricompense e apprendimento per rinforzo per l'editing e la generazione fedele di immagini
Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation
March 12, 2026
Autori: Xiangyu Zhao, Peiyuan Zhang, Junming Lin, Tianhao Liang, Yuchen Duan, Shengyuan Ding, Changyao Tian, Yuhang Zang, Junchi Yan, Xue Yang
cs.AI
Abstract
L'apprendimento per rinforzo (RL) è emerso come un paradigma promettente per migliorare l'editing delle immagini e la generazione da testo a immagine (T2I). Tuttavia, gli attuali modelli di ricompensa, che fungono da critici durante l'RL, sono spesso affetti da allucinazioni e assegnano punteggi rumorosi, fuorviando intrinsecamente il processo di ottimizzazione. In questo articolo, presentiamo FIRM (Faithful Image Reward Modeling), un framework completo che sviluppa modelli di ricompensa robusti per fornire una guida accurata e affidabile per una generazione e un editing di immagini fedeli. In primo luogo, progettiamo pipeline specializzate di curatela dei dati per costruire dataset di valutazione di alta qualità. Nello specifico, valutiamo l'editing utilizzando sia l'esecuzione che la coerenza, mentre la generazione è valutata principalmente tramite l'aderenza all'istruzione. Utilizzando queste pipeline, raccogliamo i dataset FIRM-Edit-370K e FIRM-Gen-293K, e addestriamo modelli di ricompensa specializzati (FIRM-Edit-8B e FIRM-Gen-8B) che riflettono accuratamente questi criteri. In secondo luogo, introduciamo FIRM-Bench, un benchmark completo specificamente progettato per i critici di editing e generazione. Le valutazioni dimostrano che i nostri modelli raggiungono un allineamento superiore con il giudizio umano rispetto alle metriche esistenti. Inoltre, per integrare seamlessmente questi critici nella pipeline RL, formuliamo una nuova strategia di ricompensa "Base-and-Bonus" che bilancia obiettivi in competizione: Esecuzione Modulata dalla Coerenza (CME) per l'editing e Allineamento Modulato dalla Qualità (QMA) per la generazione. Potenziato da questo framework, i nostri modelli risultanti FIRM-Qwen-Edit e FIRM-SD3.5 raggiungono sostanziali miglioramenti prestazionali. Esperimenti completi dimostrano che FIRM mitiga le allucinazioni, stabilendo un nuovo standard per la fedeltà e l'aderenza alle istruzioni rispetto ai modelli generali esistenti. Tutti i nostri dataset, modelli e codice sono pubblicamente disponibili all'indirizzo https://firm-reward.github.io.
English
Reinforcement learning (RL) has emerged as a promising paradigm for enhancing image editing and text-to-image (T2I) generation. However, current reward models, which act as critics during RL, often suffer from hallucinations and assign noisy scores, inherently misguiding the optimization process. In this paper, we present FIRM (Faithful Image Reward Modeling), a comprehensive framework that develops robust reward models to provide accurate and reliable guidance for faithful image generation and editing. First, we design tailored data curation pipelines to construct high-quality scoring datasets. Specifically, we evaluate editing using both execution and consistency, while generation is primarily assessed via instruction following. Using these pipelines, we collect the FIRM-Edit-370K and FIRM-Gen-293K datasets, and train specialized reward models (FIRM-Edit-8B and FIRM-Gen-8B) that accurately reflect these criteria. Second, we introduce FIRM-Bench, a comprehensive benchmark specifically designed for editing and generation critics. Evaluations demonstrate that our models achieve superior alignment with human judgment compared to existing metrics. Furthermore, to seamlessly integrate these critics into the RL pipeline, we formulate a novel "Base-and-Bonus" reward strategy that balances competing objectives: Consistency-Modulated Execution (CME) for editing and Quality-Modulated Alignment (QMA) for generation. Empowered by this framework, our resulting models FIRM-Qwen-Edit and FIRM-SD3.5 achieve substantial performance breakthroughs. Comprehensive experiments demonstrate that FIRM mitigates hallucinations, establishing a new standard for fidelity and instruction adherence over existing general models. All of our datasets, models, and code have been publicly available at https://firm-reward.github.io.