ChatPaper.aiChatPaper

批判を信頼せよ:忠実な画像編集と生成のためのロバストな報酬モデリングと強化学習

Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

March 12, 2026
著者: Xiangyu Zhao, Peiyuan Zhang, Junming Lin, Tianhao Liang, Yuchen Duan, Shengyuan Ding, Changyao Tian, Yuhang Zang, Junchi Yan, Xue Yang
cs.AI

要旨

強化学習(RL)は、画像編集およびテキストから画像への生成(T2I)を強化する有望なパラダイムとして登場しました。しかし、RL中に批評家として機能する現在の報酬モデルは、しばしば幻覚(ハルシネーション)に悩まされ、ノイズの多いスコアを割り当てるため、最適化プロセスを根本的に誤った方向に導いてしまいます。本論文では、忠実な画像生成と編集のための正確かつ信頼性の高いガイダンスを提供する堅牢な報酬モデルを開発する包括的フレームワークであるFIRM(Faithful Image Reward Modeling)を提案します。まず、高品質なスコアリングデータセットを構築するために、特定の目的に合わせたデータキュレーションパイプラインを設計します。具体的には、編集を実行度と一貫性の両方で評価し、生成は主に指示への追従度によって評価します。これらのパイプラインを用いて、FIRM-Edit-370KおよびFIRM-Gen-293Kデータセットを収集し、これらの基準を正確に反映する専門的な報酬モデル(FIRM-Edit-8BおよびFIRM-Gen-8B)を学習させます。第二に、編集と生成の批評家のために特別に設計された包括的ベンチマークであるFIRM-Benchを導入します。評価結果は、我々のモデルが既存の指標と比較して、人間の判断との優れた整合性を達成することを実証しています。さらに、これらの批評家をRLパイプラインにシームレスに統合するために、相反する目的のバランスを取る新しい「基本報酬とボーナス報酬」戦略を定式化します。すなわち、編集のための「一貫性調整実行度(CME)」と、生成のための「品質調整整合度(QMA)」です。このフレームワークによって強化された結果得られるモデル、FIRM-Qwen-EditおよびFIRM-SD3.5は、大幅な性能向上を達成しました。包括的な実験により、FIRMが幻覚を軽減し、既存の汎用モデルを上回る忠実性と指示追従性の新たな標準を確立することが実証されています。我々のすべてのデータセット、モデル、コードは https://firm-reward.github.io で公開されています。
English
Reinforcement learning (RL) has emerged as a promising paradigm for enhancing image editing and text-to-image (T2I) generation. However, current reward models, which act as critics during RL, often suffer from hallucinations and assign noisy scores, inherently misguiding the optimization process. In this paper, we present FIRM (Faithful Image Reward Modeling), a comprehensive framework that develops robust reward models to provide accurate and reliable guidance for faithful image generation and editing. First, we design tailored data curation pipelines to construct high-quality scoring datasets. Specifically, we evaluate editing using both execution and consistency, while generation is primarily assessed via instruction following. Using these pipelines, we collect the FIRM-Edit-370K and FIRM-Gen-293K datasets, and train specialized reward models (FIRM-Edit-8B and FIRM-Gen-8B) that accurately reflect these criteria. Second, we introduce FIRM-Bench, a comprehensive benchmark specifically designed for editing and generation critics. Evaluations demonstrate that our models achieve superior alignment with human judgment compared to existing metrics. Furthermore, to seamlessly integrate these critics into the RL pipeline, we formulate a novel "Base-and-Bonus" reward strategy that balances competing objectives: Consistency-Modulated Execution (CME) for editing and Quality-Modulated Alignment (QMA) for generation. Empowered by this framework, our resulting models FIRM-Qwen-Edit and FIRM-SD3.5 achieve substantial performance breakthroughs. Comprehensive experiments demonstrate that FIRM mitigates hallucinations, establishing a new standard for fidelity and instruction adherence over existing general models. All of our datasets, models, and code have been publicly available at https://firm-reward.github.io.
PDF222March 15, 2026