ChatPaper.aiChatPaper

EditScore: Открывая возможности онлайн-обучения с подкреплением для редактирования изображений через моделирование высокоточных вознаграждений

EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling

September 28, 2025
Авторы: Xin Luo, Jiahao Wang, Chenyuan Wu, Shitao Xiao, Xiyan Jiang, Defu Lian, Jiajun Zhang, Dong Liu, Zheng liu
cs.AI

Аннотация

Редактирование изображений на основе инструкций достигло значительных успехов, однако современные модели по-прежнему сталкиваются с трудностями при обработке сложных инструкций и часто требуют множества попыток для достижения желаемого результата. Обучение с подкреплением (RL) предлагает перспективное решение, но его применение в редактировании изображений серьезно ограничено отсутствием высокоточного и эффективного сигнала вознаграждения. В данной работе мы представляем комплексную методологию для преодоления этого барьера, сосредоточенную на разработке специализированной модели вознаграждения, соответствующей современным стандартам. Сначала мы представляем EditReward-Bench — всеобъемлющий бенчмарк для систематической оценки моделей вознаграждения на основе качества редактирования. На основе этого бенчмарка мы разрабатываем EditScore — серию моделей вознаграждения (7B-72B) для оценки качества редактирования изображений на основе инструкций. Благодаря тщательной подготовке и фильтрации данных, EditScore эффективно сопоставляет производительность с обученными проприетарными моделями визуального языка (VLM). Более того, в сочетании с эффективной стратегией самоансамбля, адаптированной под генеративную природу EditScore, наша крупнейшая модель даже превосходит GPT-5 в рамках бенчмарка. Затем мы демонстрируем, что высокоточная модель вознаграждения является ключом к применению онлайн RL в редактировании изображений. Наши эксперименты показывают, что даже крупнейшие открытые VLM не способны обеспечить эффективный сигнал для обучения, тогда как EditScore позволяет проводить эффективную и устойчивую оптимизацию политик. Применение нашего фреймворка к мощной базовой модели OmniGen2 приводит к созданию финальной модели, демонстрирующей значительный и стабильный прирост производительности. В целом, данная работа предлагает первый систематический путь от бенчмаркинга к моделированию вознаграждения и обучению RL в редактировании изображений, показывая, что высокоточная, специализированная модель вознаграждения является ключом к раскрытию полного потенциала RL в этой области.
English
Instruction-guided image editing has achieved remarkable progress, yet current models still face challenges with complex instructions and often require multiple samples to produce a desired result. Reinforcement Learning (RL) offers a promising solution, but its adoption in image editing has been severely hindered by the lack of a high-fidelity, efficient reward signal. In this work, we present a comprehensive methodology to overcome this barrier, centered on the development of a state-of-the-art, specialized reward model. We first introduce EditReward-Bench, a comprehensive benchmark to systematically evaluate reward models on editing quality. Building on this benchmark, we develop EditScore, a series of reward models (7B-72B) for evaluating the quality of instruction-guided image editing. Through meticulous data curation and filtering, EditScore effectively matches the performance of learning proprietary VLMs. Furthermore, coupled with an effective self-ensemble strategy tailored for the generative nature of EditScore, our largest variant even surpasses GPT-5 in the benchmark. We then demonstrate that a high-fidelity reward model is the key to unlocking online RL for image editing. Our experiments show that, while even the largest open-source VLMs fail to provide an effective learning signal, EditScore enables efficient and robust policy optimization. Applying our framework to a strong base model, OmniGen2, results in a final model that shows a substantial and consistent performance uplift. Overall, this work provides the first systematic path from benchmarking to reward modeling to RL training in image editing, showing that a high-fidelity, domain-specialized reward model is the key to unlocking the full potential of RL in this domain.
PDF252September 30, 2025