이미지 자체가 보상: 적대적 보상을 활용한 이미지 생성 강화 학습
The Image as Its Own Reward: Reinforcement Learning with Adversarial Reward for Image Generation
November 25, 2025
저자: Weijia Mao, Hao Chen, Zhenheng Yang, Mike Zheng Shou
cs.AI
초록
신뢰할 수 있는 보상 함수는 이미지 생성 분야의 강화 학습(RL)에 필수적입니다. 현재 대부분의 RL 접근법은 인간의 선호도를 근사화하기 위해 스칼라 보상을 출력하는 사전 학습된 선호 모델에 의존합니다. 그러나 이러한 보상은 종종 인간의 인식을 제대로 반영하지 못하며, 더 높은 점수가 더 나은 이미지를 의미하지 않는 '보상 해킹'에 취약합니다. 이를 해결하기 위해 우리는 보상 모델과 생성기를 반복적으로 업데이트하는 적대적 보상을 갖춘 RL 프레임워크인 Adv-GRPO를 제안합니다. 보상 모델은 참조 이미지를 양성 샘플로 사용하여 지도 학습되며, 보상 해킹을 크게 피할 수 있습니다. 매개변수 업데이트를 제약하는 KL 정규화와 달리, 우리가 학습한 보상은 시각적 출력을 통해 생성기를 직접 안내하여 더 높은 품질의 이미지를 생성합니다. 또한 기존 보상 함수를 최적화하면 보상 해킹을 완화할 수 있지만, 그固有的 편향은 여전히 남아 있습니다. 예를 들어 PickScore는 이미지 품질을 저하시킬 수 있는 반면, OCR 기반 보상은 종종 미적 충실도를 낮춥니다. 이를 해결하기 위해 우리는 이미지 자체를 보상으로 삼고, 참조 이미지와 비전 파운데이션 모델(예: DINO)을 활용하여 풍부한 시각적 보상을 제공합니다. 단일 스칼라 값이 아닌 이러한 밀집된 시각적 신호는 이미지 품질, 미적 요소, 작업별 메트릭 전반에 걸쳐 지속적인 성능 향상을 이끕니다. 마지막으로 참조 샘플과 파운데이션 모델 기반 보상을 결합하면 분포 변환과 유연한 스타일 사용자 지정이 가능함을 보여줍니다. 인간 평가에서 우리의 방법은 Flow-GRPO와 SD3를 능가하며, 이미지 품질과 미적 측면에서 각각 70.0%, 72.4%의 승률을 달성했습니다. 코드와 모델은 공개되었습니다.
English
A reliable reward function is essential for reinforcement learning (RL) in image generation. Most current RL approaches depend on pre-trained preference models that output scalar rewards to approximate human preferences. However, these rewards often fail to capture human perception and are vulnerable to reward hacking, where higher scores do not correspond to better images. To address this, we introduce Adv-GRPO, an RL framework with an adversarial reward that iteratively updates both the reward model and the generator. The reward model is supervised using reference images as positive samples and can largely avoid being hacked. Unlike KL regularization that constrains parameter updates, our learned reward directly guides the generator through its visual outputs, leading to higher-quality images. Moreover, while optimizing existing reward functions can alleviate reward hacking, their inherent biases remain. For instance, PickScore may degrade image quality, whereas OCR-based rewards often reduce aesthetic fidelity. To address this, we take the image itself as a reward, using reference images and vision foundation models (e.g., DINO) to provide rich visual rewards. These dense visual signals, instead of a single scalar, lead to consistent gains across image quality, aesthetics, and task-specific metrics. Finally, we show that combining reference samples with foundation-model rewards enables distribution transfer and flexible style customization. In human evaluation, our method outperforms Flow-GRPO and SD3, achieving 70.0% and 72.4% win rates in image quality and aesthetics, respectively. Code and models have been released.