검증 기반 강화 학습을 이미지 편집에 활용하기
Leveraging Verifier-Based Reinforcement Learning in Image Editing
April 30, 2026
저자: Hanzhong Guo, Jie Wu, Jie Liu, Yu Gao, Zilyu Ye, Linxiao Yuan, Xionghui Wang, Yizhou Yu, Weilin Huang
cs.AI
초록
인간 피드백 강화 학습(RLHF)이 텍스트-이미지 생성의 핵심 패러다임으로 자리잡았지만, 이미지 편집에 대한 적용은 여전히 크게 탐구되지 않고 있습니다. 주요 병목 현상은 모든 편집 작업에 대한 강력한 일반 보상 모델의 부재입니다. 기존 편집 보상 모델은 일반적으로 상세한 검수 없이 전체 점수를 부여하여 다양한 지시 요구사항을 간과하고 편향된 보상을 초래합니다. 이를 해결하기 위해 우리는 단순한 채점자에서 추론 검증자로 전환하는 것이 핵심이라고 주장합니다. 우리는 CoT(Chain-of-Thought) 검증자 기반 추론 보상 모델(RRM)을 구축하고 이를 다운스트림 이미지 편집에 활용하는 Edit-R1 프레임워크를 소개합니다. Edit-RRM은 지시를 개별 원칙으로 분해하고, 각 원칙에 대해 편집된 이미지를 평가하며, 이러한 검증 결과를 해석 가능하고 세분화된 보상으로 통합합니다. 이러한 RRM을 구축하기 위해 먼저 지도 미세 조정(SFT)을 "콜드 스타트"로 적용하여 CoT 보상 궤적을 생성합니다. 그런 다음, 인간의 쌍별 선호도 데이터를 활용하여 포인트와이즈 RRM을 강화하는 강화 학습 알고리즘인 그룹 대조 선호도 최적화(GCPO)를 도입합니다. RRM 구축 후, 이 미분 불가능하지만 강력한 보상 모델을 사용하여 편집 모델을 훈련시키기 위해 GRPO를 활용합니다. 광범위한 실험을 통해 우리의 Edit-RRM이 Seed-1.5-VL 및 Seed-1.6-VL과 같은 강력한 VLM을 편집 특화 보상 모델로서 능가하며, 3B에서 7B 매개변수로 갈수록 성능이 지속적으로 향상되는 명확한 스케일링 경향을 관찰했습니다. 또한 Edit-R1은 FLUX.1-kontext와 같은 편집 모델에 성능 향상을 제공하여 이미지 편집 향상의 효과성을 입증했습니다.
English
While Reinforcement Learning from Human Feedback (RLHF) has become a pivotal paradigm for text-to-image generation, its application to image editing remains largely unexplored. A key bottleneck is the lack of a robust general reward model for all editing tasks. Existing edit reward models usually give overall scores without detailed checks, ignoring different instruction requirements and causing biased rewards. To address this, we argue that the key is to move from a simple scorer to a reasoning verifier. We introduce Edit-R1, a framework that builds a chain-of-thought (CoT) verifier-based reasoning reward model (RRM) and then leverages it for downstream image editing. The Edit-RRM breaks instructions into distinct principles, evaluates the edited image against each principle, and aggregates these checks into an interpretable, fine-grained reward. To build such an RRM, we first apply supervised fine-tuning (SFT) as a ``cold-start'' to generate CoT reward trajectories. Then, we introduce Group Contrastive Preference Optimization (GCPO), a reinforcement learning algorithm that leverages human pairwise preference data to reinforce our pointwise RRM. After building the RRM, we use GRPO to train editing models with this non-differentiable yet powerful reward model. Extensive experiments demonstrate that our Edit-RRM surpasses powerful VLMs such as Seed-1.5-VL and Seed-1.6-VL as an editing-specific reward model, and we observe a clear scaling trend, with performance consistently improving from 3B to 7B parameters. Moreover, Edit-R1 delivers gains to editing models like FLUX.1-kontext, highlighting its effectiveness in enhancing image editing.