Использование проверочного обучения с подкреплением в редактировании изображений
Leveraging Verifier-Based Reinforcement Learning in Image Editing
April 30, 2026
Авторы: Hanzhong Guo, Jie Wu, Jie Liu, Yu Gao, Zilyu Ye, Linxiao Yuan, Xionghui Wang, Yizhou Yu, Weilin Huang
cs.AI
Аннотация
Хотя обучение с подкреплением на основе человеческих откликов (RLHF) стало ключевой парадигмой для генерации изображений по тексту, его применение к редактированию изображений остаётся практически неисследованным. Основным узким местом является отсутствие надёжной общей модели вознаграждения для всех задач редактирования. Существующие модели вознаграждения для редактирования обычно дают общие оценки без детальной проверки, игнорируя различные требования инструкций и вызывая смещённые вознаграждения. Для решения этой проблемы мы утверждаем, что ключ заключается в переходе от простого оценщика к верификатору с рассуждениями. Мы представляем Edit-R1 — фреймворк, который создаёт модель вознаграждения на основе рассуждений (RRM) с верификатором по цепочке мыслей (CoT), а затем использует её для последующего редактирования изображений. Edit-RRM разбивает инструкции на отдельные принципы, оценивает отредактированное изображение по каждому принципу и агрегирует эти проверки в интерпретируемое, детализированное вознаграждение. Чтобы построить такую RRM, мы сначала применяем контролируемое тонкое обучение (SFT) в качестве «холодного старта» для генерации траекторий вознаграждения CoT. Затем мы представляем Group Contrastive Preference Optimization (GCPO) — алгоритм обучения с подкреплением, который использует данные о парных предпочтениях людей для усиления нашей поточечной RRM. После построения RRM мы используем GRPO для обучения моделей редактирования с этой недифференцируемой, но мощной моделью вознаграждения. Многочисленные эксперименты демонстрируют, что наша Edit-RRM превосходит такие мощные VLM, как Seed-1.5-VL и Seed-1.6-VL, в качестве специализированной модели вознаграждения для редактирования, и мы наблюдаем явную тенденцию к масштабированию: производительность последовательно улучшается при переходе от 3 млрд к 7 млрд параметров. Более того, Edit-R1 обеспечивает улучшение для моделей редактирования, таких как FLUX.1-kontext, что подчёркивает её эффективность в совершенствовании редактирования изображений.
English
While Reinforcement Learning from Human Feedback (RLHF) has become a pivotal paradigm for text-to-image generation, its application to image editing remains largely unexplored. A key bottleneck is the lack of a robust general reward model for all editing tasks. Existing edit reward models usually give overall scores without detailed checks, ignoring different instruction requirements and causing biased rewards. To address this, we argue that the key is to move from a simple scorer to a reasoning verifier. We introduce Edit-R1, a framework that builds a chain-of-thought (CoT) verifier-based reasoning reward model (RRM) and then leverages it for downstream image editing. The Edit-RRM breaks instructions into distinct principles, evaluates the edited image against each principle, and aggregates these checks into an interpretable, fine-grained reward. To build such an RRM, we first apply supervised fine-tuning (SFT) as a ``cold-start'' to generate CoT reward trajectories. Then, we introduce Group Contrastive Preference Optimization (GCPO), a reinforcement learning algorithm that leverages human pairwise preference data to reinforce our pointwise RRM. After building the RRM, we use GRPO to train editing models with this non-differentiable yet powerful reward model. Extensive experiments demonstrate that our Edit-RRM surpasses powerful VLMs such as Seed-1.5-VL and Seed-1.6-VL as an editing-specific reward model, and we observe a clear scaling trend, with performance consistently improving from 3B to 7B parameters. Moreover, Edit-R1 delivers gains to editing models like FLUX.1-kontext, highlighting its effectiveness in enhancing image editing.