ChatPaper.aiChatPaper

EditScore: Sbloccare l'Apprendimento per Rinforzo Online per l'Editing di Immagini attraverso la Modellazione di Ricompense ad Alta Fedeltà

EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling

September 28, 2025
Autori: Xin Luo, Jiahao Wang, Chenyuan Wu, Shitao Xiao, Xiyan Jiang, Defu Lian, Jiajun Zhang, Dong Liu, Zheng liu
cs.AI

Abstract

L'editing di immagini guidato da istruzioni ha compiuto progressi notevoli, tuttavia i modelli attuali continuano a confrontarsi con sfide legate a istruzioni complesse e spesso richiedono più campioni per ottenere un risultato desiderato. Il Reinforcement Learning (RL) offre una soluzione promettente, ma la sua adozione nell'editing di immagini è stata fortemente limitata dalla mancanza di un segnale di ricompensa ad alta fedeltà ed efficiente. In questo lavoro, presentiamo una metodologia completa per superare questa barriera, incentrata sullo sviluppo di un modello di ricompensa specializzato e all'avanguardia. Introduciamo innanzitutto EditReward-Bench, un benchmark completo per valutare sistematicamente i modelli di ricompensa sulla qualità dell'editing. Basandoci su questo benchmark, sviluppiamo EditScore, una serie di modelli di ricompensa (7B-72B) per valutare la qualità dell'editing di immagini guidato da istruzioni. Attraverso una curatela e un filtraggio meticolosi dei dati, EditScore eguaglia efficacemente le prestazioni dei modelli di apprendimento proprietari VLM. Inoltre, abbinato a una strategia di auto-ensemble efficace, progettata specificamente per la natura generativa di EditScore, la nostra variante più grande supera persino GPT-5 nel benchmark. Dimostriamo quindi che un modello di ricompensa ad alta fedeltà è la chiave per sbloccare il RL online nell'editing di immagini. I nostri esperimenti mostrano che, mentre persino i più grandi VLM open-source non riescono a fornire un segnale di apprendimento efficace, EditScore consente un'ottimizzazione delle politiche efficiente e robusta. Applicando il nostro framework a un modello base solido, OmniGen2, si ottiene un modello finale che mostra un miglioramento sostanziale e consistente delle prestazioni. Nel complesso, questo lavoro fornisce il primo percorso sistematico dal benchmarking alla modellazione delle ricompense fino all'addestramento RL nell'editing di immagini, dimostrando che un modello di ricompensa ad alta fedeltà e specializzato nel dominio è la chiave per sbloccare il pieno potenziale del RL in questo ambito.
English
Instruction-guided image editing has achieved remarkable progress, yet current models still face challenges with complex instructions and often require multiple samples to produce a desired result. Reinforcement Learning (RL) offers a promising solution, but its adoption in image editing has been severely hindered by the lack of a high-fidelity, efficient reward signal. In this work, we present a comprehensive methodology to overcome this barrier, centered on the development of a state-of-the-art, specialized reward model. We first introduce EditReward-Bench, a comprehensive benchmark to systematically evaluate reward models on editing quality. Building on this benchmark, we develop EditScore, a series of reward models (7B-72B) for evaluating the quality of instruction-guided image editing. Through meticulous data curation and filtering, EditScore effectively matches the performance of learning proprietary VLMs. Furthermore, coupled with an effective self-ensemble strategy tailored for the generative nature of EditScore, our largest variant even surpasses GPT-5 in the benchmark. We then demonstrate that a high-fidelity reward model is the key to unlocking online RL for image editing. Our experiments show that, while even the largest open-source VLMs fail to provide an effective learning signal, EditScore enables efficient and robust policy optimization. Applying our framework to a strong base model, OmniGen2, results in a final model that shows a substantial and consistent performance uplift. Overall, this work provides the first systematic path from benchmarking to reward modeling to RL training in image editing, showing that a high-fidelity, domain-specialized reward model is the key to unlocking the full potential of RL in this domain.
PDF2910September 30, 2025