EditScore: 高忠実度報酬モデリングによる画像編集のためのオンライン強化学習の実現
EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling
September 28, 2025
著者: Xin Luo, Jiahao Wang, Chenyuan Wu, Shitao Xiao, Xiyan Jiang, Defu Lian, Jiajun Zhang, Dong Liu, Zheng liu
cs.AI
要旨
指示に基づく画像編集は目覚ましい進歩を遂げてきたが、現在のモデルは複雑な指示に対応する際に課題を抱えており、望ましい結果を得るために複数のサンプルを必要とすることが多い。強化学習(RL)は有望な解決策を提供するが、高精度で効率的な報酬信号の欠如により、画像編集分野での採用は大きく阻まれてきた。本研究では、この障壁を克服するための包括的な方法論を提示し、最先端の専門的な報酬モデルの開発を中心に据えている。まず、編集品質に関する報酬モデルを体系的に評価するための包括的なベンチマークであるEditReward-Benchを導入する。このベンチマークを基に、指示に基づく画像編集の品質を評価するための一連の報酬モデル(7B-72B)であるEditScoreを開発した。緻密なデータキュレーションとフィルタリングを通じて、EditScoreは学習型の独自の視覚言語モデル(VLM)の性能に匹敵する効果を発揮する。さらに、EditScoreの生成特性に特化した効果的な自己アンサンブル戦略と組み合わせることで、最大規模のバリアントはベンチマークにおいてGPT-5を凌駕する結果を示した。次に、高精度な報酬モデルが画像編集におけるオンラインRLの鍵であることを実証する。実験結果から、最大規模のオープンソースVLMでさえ効果的な学習信号を提供できない一方で、EditScoreは効率的かつ堅牢なポリシー最適化を可能にすることが明らかになった。強力なベースモデルであるOmniGen2に本フレームワークを適用した結果、最終モデルは大幅かつ一貫した性能向上を示した。全体として、本研究はベンチマークから報酬モデリング、RLトレーニングに至る画像編集分野における最初の体系的な道筋を提供し、高精度でドメイン特化した報酬モデルがこの分野におけるRLの真の可能性を引き出す鍵であることを示している。
English
Instruction-guided image editing has achieved remarkable progress, yet
current models still face challenges with complex instructions and often
require multiple samples to produce a desired result. Reinforcement Learning
(RL) offers a promising solution, but its adoption in image editing has been
severely hindered by the lack of a high-fidelity, efficient reward signal. In
this work, we present a comprehensive methodology to overcome this barrier,
centered on the development of a state-of-the-art, specialized reward model. We
first introduce EditReward-Bench, a comprehensive benchmark to systematically
evaluate reward models on editing quality. Building on this benchmark, we
develop EditScore, a series of reward models (7B-72B) for evaluating the
quality of instruction-guided image editing. Through meticulous data curation
and filtering, EditScore effectively matches the performance of learning
proprietary VLMs. Furthermore, coupled with an effective self-ensemble strategy
tailored for the generative nature of EditScore, our largest variant even
surpasses GPT-5 in the benchmark. We then demonstrate that a high-fidelity
reward model is the key to unlocking online RL for image editing. Our
experiments show that, while even the largest open-source VLMs fail to provide
an effective learning signal, EditScore enables efficient and robust policy
optimization. Applying our framework to a strong base model, OmniGen2, results
in a final model that shows a substantial and consistent performance uplift.
Overall, this work provides the first systematic path from benchmarking to
reward modeling to RL training in image editing, showing that a high-fidelity,
domain-specialized reward model is the key to unlocking the full potential of
RL in this domain.