画像編集における検証器ベース強化学習の活用
Leveraging Verifier-Based Reinforcement Learning in Image Editing
April 30, 2026
著者: Hanzhong Guo, Jie Wu, Jie Liu, Yu Gao, Zilyu Ye, Linxiao Yuan, Xionghui Wang, Yizhou Yu, Weilin Huang
cs.AI
要旨
人間フィードバックによる強化学習(RLHF)はテキストから画像への生成において重要なパラダイムとなっているが、画像編集への応用は未だほとんど研究されていない。主要なボトルネックは、あらゆる編集タスクに対応する頑健な汎用報酬モデルの欠如である。既存の編集報酬モデルは通常、詳細なチェックなしに総合スコアを付与するため、異なる指示要件を見落とし、偏った報酬を生じさせる。この問題に対処するため、我々は単純な採点者から推論検証者への転換が鍵であると主張する。本論文ではEdit-R1を提案する。これはChain-of-Thought(CoT)検証者ベースの推論報酬モデル(RRM)を構築し、それを下流の画像編集に活用するフレームワークである。Edit-RRMは指示を個別の原則に分解し、編集後の画像を各原則に対して評価し、これらのチェックを解釈可能できめ細かい報酬に集約する。このようなRRMを構築するため、まず教師ありファインチューニング(SFT)を「コールドスタート」として適用し、CoT報酬軌道を生成する。次に、グループ対比選好最適化(GCPO)を導入する。これは人間のペアワイズ選好データを活用してポイントワイズRRMを強化する強化学習アルゴリズムである。RRM構築後、この微分不可能だが強力な報酬モデルを用いて編集モデルを訓練するためにGRPOを利用する。大規模な実験により、我々のEdit-RRMはSeed-1.5-VLやSeed-1.6-VLといった強力な視覚言語モデル(VLM)を編集特化型報酬モデルとして凌駕し、3Bパラメータから7Bパラメータへとモデル規模が拡大するにつれて性能が一貫して向上する明確なスケーリング傾向が観察される。さらに、Edit-R1はFLUX.1-kontextのような編集モデルにも改善をもたらし、画像編集の強化におけるその有効性が示されている。
English
While Reinforcement Learning from Human Feedback (RLHF) has become a pivotal paradigm for text-to-image generation, its application to image editing remains largely unexplored. A key bottleneck is the lack of a robust general reward model for all editing tasks. Existing edit reward models usually give overall scores without detailed checks, ignoring different instruction requirements and causing biased rewards. To address this, we argue that the key is to move from a simple scorer to a reasoning verifier. We introduce Edit-R1, a framework that builds a chain-of-thought (CoT) verifier-based reasoning reward model (RRM) and then leverages it for downstream image editing. The Edit-RRM breaks instructions into distinct principles, evaluates the edited image against each principle, and aggregates these checks into an interpretable, fine-grained reward. To build such an RRM, we first apply supervised fine-tuning (SFT) as a ``cold-start'' to generate CoT reward trajectories. Then, we introduce Group Contrastive Preference Optimization (GCPO), a reinforcement learning algorithm that leverages human pairwise preference data to reinforce our pointwise RRM. After building the RRM, we use GRPO to train editing models with this non-differentiable yet powerful reward model. Extensive experiments demonstrate that our Edit-RRM surpasses powerful VLMs such as Seed-1.5-VL and Seed-1.6-VL as an editing-specific reward model, and we observe a clear scaling trend, with performance consistently improving from 3B to 7B parameters. Moreover, Edit-R1 delivers gains to editing models like FLUX.1-kontext, highlighting its effectiveness in enhancing image editing.