ChatPaper.aiChatPaper

EditScore: Online Reinforcement Learning für Bildbearbeitung durch hochpräzise Belohnungsmodellierung freischalten

EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling

September 28, 2025
papers.authors: Xin Luo, Jiahao Wang, Chenyuan Wu, Shitao Xiao, Xiyan Jiang, Defu Lian, Jiajun Zhang, Dong Liu, Zheng liu
cs.AI

papers.abstract

Anweisungsgesteuertes Bildbearbeitung hat bemerkenswerte Fortschritte erzielt, doch aktuelle Modelle stehen weiterhin vor Herausforderungen bei komplexen Anweisungen und benötigen oft mehrere Proben, um ein gewünschtes Ergebnis zu erzielen. Reinforcement Learning (RL) bietet eine vielversprechende Lösung, doch seine Anwendung in der Bildbearbeitung wurde bisher stark durch das Fehlen eines hochpräzisen, effizienten Belohnungssignals behindert. In dieser Arbeit präsentieren wir eine umfassende Methodik, um diese Hürde zu überwinden, die auf der Entwicklung eines spezialisierten Belohnungsmodells auf dem neuesten Stand der Technik basiert. Wir führen zunächst EditReward-Bench ein, einen umfassenden Benchmark, um Belohnungsmodelle systematisch anhand der Bearbeitungsqualität zu bewerten. Aufbauend auf diesem Benchmark entwickeln wir EditScore, eine Reihe von Belohnungsmodellen (7B-72B) zur Bewertung der Qualität anweisungsgesteuerter Bildbearbeitung. Durch sorgfältige Datenkuratierung und -filterung erreicht EditScore effektiv die Leistung proprietärer VLMs. Darüber hinaus übertrifft unsere größte Variante, gekoppelt mit einer effektiven Selbst-Ensemble-Strategie, die auf die generative Natur von EditScore zugeschnitten ist, sogar GPT-5 im Benchmark. Wir zeigen dann, dass ein hochpräzises Belohnungsmodell der Schlüssel zur Nutzung von Online-RL in der Bildbearbeitung ist. Unsere Experimente zeigen, dass selbst die größten Open-Source-VLMs kein effektives Lernsignal liefern können, während EditScore eine effiziente und robuste Politikoptimierung ermöglicht. Die Anwendung unseres Frameworks auf ein starkes Basismodell, OmniGen2, führt zu einem Endmodell, das eine erhebliche und konsistente Leistungssteigerung zeigt. Insgesamt bietet diese Arbeit den ersten systematischen Weg vom Benchmarking über die Belohnungsmodellierung bis hin zum RL-Training in der Bildbearbeitung und zeigt, dass ein hochpräzises, domänenspezialisiertes Belohnungsmodell der Schlüssel zur vollständigen Ausschöpfung des Potenzials von RL in diesem Bereich ist.
English
Instruction-guided image editing has achieved remarkable progress, yet current models still face challenges with complex instructions and often require multiple samples to produce a desired result. Reinforcement Learning (RL) offers a promising solution, but its adoption in image editing has been severely hindered by the lack of a high-fidelity, efficient reward signal. In this work, we present a comprehensive methodology to overcome this barrier, centered on the development of a state-of-the-art, specialized reward model. We first introduce EditReward-Bench, a comprehensive benchmark to systematically evaluate reward models on editing quality. Building on this benchmark, we develop EditScore, a series of reward models (7B-72B) for evaluating the quality of instruction-guided image editing. Through meticulous data curation and filtering, EditScore effectively matches the performance of learning proprietary VLMs. Furthermore, coupled with an effective self-ensemble strategy tailored for the generative nature of EditScore, our largest variant even surpasses GPT-5 in the benchmark. We then demonstrate that a high-fidelity reward model is the key to unlocking online RL for image editing. Our experiments show that, while even the largest open-source VLMs fail to provide an effective learning signal, EditScore enables efficient and robust policy optimization. Applying our framework to a strong base model, OmniGen2, results in a final model that shows a substantial and consistent performance uplift. Overall, this work provides the first systematic path from benchmarking to reward modeling to RL training in image editing, showing that a high-fidelity, domain-specialized reward model is the key to unlocking the full potential of RL in this domain.
PDF252September 30, 2025