ChatPaper.aiChatPaper

EditScore: Online RL voor beeldbewerking ontgrendelen via hoogwaardige beloningsmodellering

EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling

September 28, 2025
Auteurs: Xin Luo, Jiahao Wang, Chenyuan Wu, Shitao Xiao, Xiyan Jiang, Defu Lian, Jiajun Zhang, Dong Liu, Zheng liu
cs.AI

Samenvatting

Instructiegestuurd beeldbewerken heeft opmerkelijke vooruitgang geboekt, maar huidige modellen kampen nog steeds met uitdagingen bij complexe instructies en vereisen vaak meerdere voorbeelden om een gewenst resultaat te bereiken. Reinforcement Learning (RL) biedt een veelbelovende oplossing, maar de adoptie ervan in beeldbewerking is ernstig belemmerd door het ontbreken van een hoogwaardig, efficiënt beloningssignaal. In dit werk presenteren we een uitgebreide methodologie om deze barrière te overwinnen, gericht op de ontwikkeling van een state-of-the-art, gespecialiseerd beloningsmodel. We introduceren eerst EditReward-Bench, een uitgebreide benchmark om beloningsmodellen systematisch te evalueren op bewerkingskwaliteit. Op basis van deze benchmark ontwikkelen we EditScore, een reeks beloningsmodellen (7B-72B) voor het evalueren van de kwaliteit van instructiegestuurde beeldbewerking. Door zorgvuldige datacuratie en filtering komt EditScore effectief overeen met de prestaties van het leren van propriëtaire VLMs. Bovendien overtreft, in combinatie met een effectieve zelf-ensemble strategie die is afgestemd op de generatieve aard van EditScore, onze grootste variant zelfs GPT-5 in de benchmark. We tonen vervolgens aan dat een hoogwaardig beloningsmodel de sleutel is om online RL voor beeldbewerking mogelijk te maken. Onze experimenten laten zien dat, terwijl zelfs de grootste open-source VLMs niet in staat zijn een effectief leersignaal te bieden, EditScore efficiënte en robuuste beleidsoptimalisatie mogelijk maakt. Door ons framework toe te passen op een sterk basismodel, OmniGen2, resulteert dit in een uiteindelijk model dat een aanzienlijke en consistente prestatieverbetering laat zien. Over het algemeen biedt dit werk het eerste systematische pad van benchmarking naar beloningsmodellering naar RL-training in beeldbewerking, en toont het aan dat een hoogwaardig, domeingespecialiseerd beloningsmodel de sleutel is om het volledige potentieel van RL in dit domein te ontsluiten.
English
Instruction-guided image editing has achieved remarkable progress, yet current models still face challenges with complex instructions and often require multiple samples to produce a desired result. Reinforcement Learning (RL) offers a promising solution, but its adoption in image editing has been severely hindered by the lack of a high-fidelity, efficient reward signal. In this work, we present a comprehensive methodology to overcome this barrier, centered on the development of a state-of-the-art, specialized reward model. We first introduce EditReward-Bench, a comprehensive benchmark to systematically evaluate reward models on editing quality. Building on this benchmark, we develop EditScore, a series of reward models (7B-72B) for evaluating the quality of instruction-guided image editing. Through meticulous data curation and filtering, EditScore effectively matches the performance of learning proprietary VLMs. Furthermore, coupled with an effective self-ensemble strategy tailored for the generative nature of EditScore, our largest variant even surpasses GPT-5 in the benchmark. We then demonstrate that a high-fidelity reward model is the key to unlocking online RL for image editing. Our experiments show that, while even the largest open-source VLMs fail to provide an effective learning signal, EditScore enables efficient and robust policy optimization. Applying our framework to a strong base model, OmniGen2, results in a final model that shows a substantial and consistent performance uplift. Overall, this work provides the first systematic path from benchmarking to reward modeling to RL training in image editing, showing that a high-fidelity, domain-specialized reward model is the key to unlocking the full potential of RL in this domain.
PDF2910September 30, 2025