EditScore: Desbloqueando o Aprendizado por Reforço Online para Edição de Imagens por meio de Modelagem de Recompensa de Alta Fidelidade
EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling
September 28, 2025
Autores: Xin Luo, Jiahao Wang, Chenyuan Wu, Shitao Xiao, Xiyan Jiang, Defu Lian, Jiajun Zhang, Dong Liu, Zheng liu
cs.AI
Resumo
A edição de imagens guiada por instruções alcançou progressos notáveis, mas os modelos atuais ainda enfrentam desafios com instruções complexas e frequentemente exigem múltiplas amostras para produzir um resultado desejado. O Aprendizado por Reforço (RL) oferece uma solução promissora, mas sua adoção na edição de imagens tem sido severamente dificultada pela falta de um sinal de recompensa de alta fidelidade e eficiente. Neste trabalho, apresentamos uma metodologia abrangente para superar essa barreira, centrada no desenvolvimento de um modelo de recompensa especializado e de última geração. Primeiro, introduzimos o EditReward-Bench, um benchmark abrangente para avaliar sistematicamente modelos de recompensa na qualidade de edição. Com base nesse benchmark, desenvolvemos o EditScore, uma série de modelos de recompensa (7B-72B) para avaliar a qualidade da edição de imagens guiada por instruções. Através de uma curadoria e filtragem meticulosa de dados, o EditScore corresponde efetivamente ao desempenho de modelos visuais de linguagem (VLMs) proprietários. Além disso, combinado com uma estratégia de auto-ensemble eficaz, adaptada à natureza generativa do EditScore, nossa maior variante até supera o GPT-5 no benchmark. Em seguida, demonstramos que um modelo de recompensa de alta fidelidade é a chave para desbloquear o RL online na edição de imagens. Nossos experimentos mostram que, enquanto até mesmo os maiores VLMs de código aberto falham em fornecer um sinal de aprendizado eficaz, o EditScore permite uma otimização de política eficiente e robusta. A aplicação de nossa estrutura a um modelo base forte, o OmniGen2, resulta em um modelo final que mostra um aumento substancial e consistente no desempenho. No geral, este trabalho fornece o primeiro caminho sistemático desde o benchmarking até a modelagem de recompensa e o treinamento de RL na edição de imagens, mostrando que um modelo de recompensa de alta fidelidade e especializado no domínio é a chave para desbloquear todo o potencial do RL nessa área.
English
Instruction-guided image editing has achieved remarkable progress, yet
current models still face challenges with complex instructions and often
require multiple samples to produce a desired result. Reinforcement Learning
(RL) offers a promising solution, but its adoption in image editing has been
severely hindered by the lack of a high-fidelity, efficient reward signal. In
this work, we present a comprehensive methodology to overcome this barrier,
centered on the development of a state-of-the-art, specialized reward model. We
first introduce EditReward-Bench, a comprehensive benchmark to systematically
evaluate reward models on editing quality. Building on this benchmark, we
develop EditScore, a series of reward models (7B-72B) for evaluating the
quality of instruction-guided image editing. Through meticulous data curation
and filtering, EditScore effectively matches the performance of learning
proprietary VLMs. Furthermore, coupled with an effective self-ensemble strategy
tailored for the generative nature of EditScore, our largest variant even
surpasses GPT-5 in the benchmark. We then demonstrate that a high-fidelity
reward model is the key to unlocking online RL for image editing. Our
experiments show that, while even the largest open-source VLMs fail to provide
an effective learning signal, EditScore enables efficient and robust policy
optimization. Applying our framework to a strong base model, OmniGen2, results
in a final model that shows a substantial and consistent performance uplift.
Overall, this work provides the first systematic path from benchmarking to
reward modeling to RL training in image editing, showing that a high-fidelity,
domain-specialized reward model is the key to unlocking the full potential of
RL in this domain.