EditScore : Débloquer l'apprentissage par renforcement en ligne pour l'édition d'images grâce à une modélisation de récompense haute fidélité
EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling
September 28, 2025
papers.authors: Xin Luo, Jiahao Wang, Chenyuan Wu, Shitao Xiao, Xiyan Jiang, Defu Lian, Jiajun Zhang, Dong Liu, Zheng liu
cs.AI
papers.abstract
L'édition d'images guidée par instructions a réalisé des progrès remarquables, mais les modèles actuels rencontrent encore des difficultés avec des instructions complexes et nécessitent souvent plusieurs échantillons pour produire un résultat souhaité. L'apprentissage par renforcement (RL) offre une solution prometteuse, mais son adoption dans l'édition d'images a été fortement entravée par l'absence d'un signal de récompense fidèle et efficace. Dans ce travail, nous présentons une méthodologie complète pour surmonter cet obstacle, centrée sur le développement d'un modèle de récompense spécialisé de pointe. Nous introduisons d'abord EditReward-Bench, un benchmark complet pour évaluer systématiquement les modèles de récompense sur la qualité de l'édition. Sur la base de ce benchmark, nous développons EditScore, une série de modèles de récompense (7B-72B) pour évaluer la qualité de l'édition d'images guidée par instructions. Grâce à une curation et un filtrage méticuleux des données, EditScore correspond efficacement aux performances des modèles de langage visuel (VLM) propriétaires. De plus, couplé à une stratégie d'auto-ensemble efficace adaptée à la nature générative d'EditScore, notre plus grande variante dépasse même GPT-5 dans le benchmark. Nous démontrons ensuite qu'un modèle de récompense fidèle est la clé pour débloquer le RL en ligne pour l'édition d'images. Nos expériences montrent que, même les plus grands VLM open source ne parviennent pas à fournir un signal d'apprentissage efficace, EditScore permet une optimisation de politique robuste et efficiente. L'application de notre cadre à un modèle de base solide, OmniGen2, aboutit à un modèle final qui montre une amélioration substantielle et constante des performances. Globalement, ce travail fournit le premier chemin systématique du benchmarking à la modélisation de récompense jusqu'à l'entraînement RL dans l'édition d'images, montrant qu'un modèle de récompense fidèle et spécialisé dans le domaine est la clé pour débloquer tout le potentiel du RL dans ce domaine.
English
Instruction-guided image editing has achieved remarkable progress, yet
current models still face challenges with complex instructions and often
require multiple samples to produce a desired result. Reinforcement Learning
(RL) offers a promising solution, but its adoption in image editing has been
severely hindered by the lack of a high-fidelity, efficient reward signal. In
this work, we present a comprehensive methodology to overcome this barrier,
centered on the development of a state-of-the-art, specialized reward model. We
first introduce EditReward-Bench, a comprehensive benchmark to systematically
evaluate reward models on editing quality. Building on this benchmark, we
develop EditScore, a series of reward models (7B-72B) for evaluating the
quality of instruction-guided image editing. Through meticulous data curation
and filtering, EditScore effectively matches the performance of learning
proprietary VLMs. Furthermore, coupled with an effective self-ensemble strategy
tailored for the generative nature of EditScore, our largest variant even
surpasses GPT-5 in the benchmark. We then demonstrate that a high-fidelity
reward model is the key to unlocking online RL for image editing. Our
experiments show that, while even the largest open-source VLMs fail to provide
an effective learning signal, EditScore enables efficient and robust policy
optimization. Applying our framework to a strong base model, OmniGen2, results
in a final model that shows a substantial and consistent performance uplift.
Overall, this work provides the first systematic path from benchmarking to
reward modeling to RL training in image editing, showing that a high-fidelity,
domain-specialized reward model is the key to unlocking the full potential of
RL in this domain.