비판을 신뢰하라: 신뢰할 수 있는 이미지 편집 및 생성을 위한 강건한 보상 모델링과 강화 학습
Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation
March 12, 2026
저자: Xiangyu Zhao, Peiyuan Zhang, Junming Lin, Tianhao Liang, Yuchen Duan, Shengyuan Ding, Changyao Tian, Yuhang Zang, Junchi Yan, Xue Yang
cs.AI
초록
강화 학습(RL)은 이미지 편집 및 텍스트-이미지(T2I) 생성 향상을 위한 유망한 패러다임으로 부상했습니다. 그러나 RL 과정에서 비평가 역할을 하는 기존 보상 모델은 종종 환각(hallucination) 현상을 보이며 노이즈가 많은 점수를 부여함으로써 최적화 과정을 근본적으로 잘못 이끄는 문제가 있습니다. 본 논문에서는 신뢰할 수 있는 이미지 생성 및 편집을 위해 정확하고 안정적인 지침을 제공하는 강력한 보상 모델을 개발하는 포괄적 프레임워크인 FIRM(Faithful Image Reward Modeling)을 소개합니다. 첫째, 고품질 점수 평가 데이터셋 구축을 위해 맞춤형 데이터 큐레이션 파이프라인을 설계합니다. 구체적으로 편집 작업은 실행성(execution)과 일관성(consistency)을 모두 통해 평가하는 반면, 생성 작업은 주로 지시 사항 준수도(instruction following)를 통해 평가합니다. 이러한 파이프라인을 활용하여 FIRM-Edit-370K 및 FIRM-Gen-293K 데이터셋을 수집하고, 해당 기준을 정확히 반영하는 전용 보상 모델(FIRM-Edit-8B 및 FIRM-Gen-8B)을 학습시킵니다. 둘째, 편집 및 생성 비평가를 위해 특별히 설계된 포괄적 벤치마크인 FIRM-Bench를 도입합니다. 평가 결과, 우리 모델이 기존 지표들에 비해 인간의 판단과 더 우수한 일치도를 달성함을 보여줍니다. 나아가, 이러한 비평가를 RL 파이프라인에 원활하게 통합하기 위해 상충되는 목표를 균형 있게 조절하는 새로운 "Base-and-Bonus" 보상 전략을 정식화합니다. 즉, 편집을 위한 일관성 조절 실행(Consistency-Modulated Execution, CME)과 생성을 위한 품질 조절 정합(Quality-Modulated Alignment, QMA)입니다. 이 프레임워크를 통해 구현된 최종 모델인 FIRM-Qwen-Edit과 FIRM-SD3.5는 상당한 성능 돌파를 이루었습니다. 포괄적 실험을 통해 FIRM이 환각 현상을 완화하며, 기존 일반 모델 대비 정확도(fidelity)와 지시 사항 준수 측면에서 새로운 기준을 수립함을 입증합니다. 우리의 모든 데이터셋, 모델 및 코드는 https://firm-reward.github.io에서 공개되었습니다.
English
Reinforcement learning (RL) has emerged as a promising paradigm for enhancing image editing and text-to-image (T2I) generation. However, current reward models, which act as critics during RL, often suffer from hallucinations and assign noisy scores, inherently misguiding the optimization process. In this paper, we present FIRM (Faithful Image Reward Modeling), a comprehensive framework that develops robust reward models to provide accurate and reliable guidance for faithful image generation and editing. First, we design tailored data curation pipelines to construct high-quality scoring datasets. Specifically, we evaluate editing using both execution and consistency, while generation is primarily assessed via instruction following. Using these pipelines, we collect the FIRM-Edit-370K and FIRM-Gen-293K datasets, and train specialized reward models (FIRM-Edit-8B and FIRM-Gen-8B) that accurately reflect these criteria. Second, we introduce FIRM-Bench, a comprehensive benchmark specifically designed for editing and generation critics. Evaluations demonstrate that our models achieve superior alignment with human judgment compared to existing metrics. Furthermore, to seamlessly integrate these critics into the RL pipeline, we formulate a novel "Base-and-Bonus" reward strategy that balances competing objectives: Consistency-Modulated Execution (CME) for editing and Quality-Modulated Alignment (QMA) for generation. Empowered by this framework, our resulting models FIRM-Qwen-Edit and FIRM-SD3.5 achieve substantial performance breakthroughs. Comprehensive experiments demonstrate that FIRM mitigates hallucinations, establishing a new standard for fidelity and instruction adherence over existing general models. All of our datasets, models, and code have been publicly available at https://firm-reward.github.io.