EditScore: Online Reinforcement Learning für Bildbearbeitung durch hochpräzise Belohnungsmodellierung freischalten
EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling
September 28, 2025
papers.authors: Xin Luo, Jiahao Wang, Chenyuan Wu, Shitao Xiao, Xiyan Jiang, Defu Lian, Jiajun Zhang, Dong Liu, Zheng liu
cs.AI
papers.abstract
Anweisungsgesteuertes Bildbearbeitung hat bemerkenswerte Fortschritte erzielt, doch aktuelle Modelle stehen weiterhin vor Herausforderungen bei komplexen Anweisungen und benötigen oft mehrere Proben, um ein gewünschtes Ergebnis zu erzielen. Reinforcement Learning (RL) bietet eine vielversprechende Lösung, doch seine Anwendung in der Bildbearbeitung wurde bisher stark durch das Fehlen eines hochpräzisen, effizienten Belohnungssignals behindert. In dieser Arbeit präsentieren wir eine umfassende Methodik, um diese Hürde zu überwinden, die auf der Entwicklung eines spezialisierten Belohnungsmodells auf dem neuesten Stand der Technik basiert. Wir führen zunächst EditReward-Bench ein, einen umfassenden Benchmark, um Belohnungsmodelle systematisch anhand der Bearbeitungsqualität zu bewerten. Aufbauend auf diesem Benchmark entwickeln wir EditScore, eine Reihe von Belohnungsmodellen (7B-72B) zur Bewertung der Qualität anweisungsgesteuerter Bildbearbeitung. Durch sorgfältige Datenkuratierung und -filterung erreicht EditScore effektiv die Leistung proprietärer VLMs. Darüber hinaus übertrifft unsere größte Variante, gekoppelt mit einer effektiven Selbst-Ensemble-Strategie, die auf die generative Natur von EditScore zugeschnitten ist, sogar GPT-5 im Benchmark. Wir zeigen dann, dass ein hochpräzises Belohnungsmodell der Schlüssel zur Nutzung von Online-RL in der Bildbearbeitung ist. Unsere Experimente zeigen, dass selbst die größten Open-Source-VLMs kein effektives Lernsignal liefern können, während EditScore eine effiziente und robuste Politikoptimierung ermöglicht. Die Anwendung unseres Frameworks auf ein starkes Basismodell, OmniGen2, führt zu einem Endmodell, das eine erhebliche und konsistente Leistungssteigerung zeigt. Insgesamt bietet diese Arbeit den ersten systematischen Weg vom Benchmarking über die Belohnungsmodellierung bis hin zum RL-Training in der Bildbearbeitung und zeigt, dass ein hochpräzises, domänenspezialisiertes Belohnungsmodell der Schlüssel zur vollständigen Ausschöpfung des Potenzials von RL in diesem Bereich ist.
English
Instruction-guided image editing has achieved remarkable progress, yet
current models still face challenges with complex instructions and often
require multiple samples to produce a desired result. Reinforcement Learning
(RL) offers a promising solution, but its adoption in image editing has been
severely hindered by the lack of a high-fidelity, efficient reward signal. In
this work, we present a comprehensive methodology to overcome this barrier,
centered on the development of a state-of-the-art, specialized reward model. We
first introduce EditReward-Bench, a comprehensive benchmark to systematically
evaluate reward models on editing quality. Building on this benchmark, we
develop EditScore, a series of reward models (7B-72B) for evaluating the
quality of instruction-guided image editing. Through meticulous data curation
and filtering, EditScore effectively matches the performance of learning
proprietary VLMs. Furthermore, coupled with an effective self-ensemble strategy
tailored for the generative nature of EditScore, our largest variant even
surpasses GPT-5 in the benchmark. We then demonstrate that a high-fidelity
reward model is the key to unlocking online RL for image editing. Our
experiments show that, while even the largest open-source VLMs fail to provide
an effective learning signal, EditScore enables efficient and robust policy
optimization. Applying our framework to a strong base model, OmniGen2, results
in a final model that shows a substantial and consistent performance uplift.
Overall, this work provides the first systematic path from benchmarking to
reward modeling to RL training in image editing, showing that a high-fidelity,
domain-specialized reward model is the key to unlocking the full potential of
RL in this domain.