RewardDance: 시각적 생성에서의 보상 스케일링
RewardDance: Reward Scaling in Visual Generation
September 10, 2025
저자: Jie Wu, Yu Gao, Zilyu Ye, Ming Li, Liang Li, Hanzhong Guo, Jie Liu, Zeyue Xue, Xiaoxia Hou, Wei Liu, Yan Zeng, Weilin Huang
cs.AI
초록
보상 모델(Reward Models, RMs)은 강화 학습(Reinforcement Learning, RL)을 통해 생성 모델을 개선하는 데 중요한 역할을 하지만, 시각적 생성 분야에서의 RM 확장 패러다임은 여전히 크게 탐구되지 않고 있습니다. 이는 기존 접근법의 근본적인 한계 때문입니다: CLIP 기반 RMs는 아키텍처 및 입력 모달리티 제약을 겪고 있으며, 널리 사용되는 Bradley-Terry 손실 함수는 비전-언어 모델(Vision-Language Models, VLMs)의 다음 토큰 예측 메커니즘과 근본적으로 불일치하여 효과적인 확장을 방해합니다. 더욱 중요한 것은, RLHF 최적화 과정은 보상 신호의 결함을 악용하면서도 실제 품질을 개선하지 않는 "보상 해킹(Reward Hacking)" 문제에 시달린다는 점입니다. 이러한 문제를 해결하기 위해, 우리는 새로운 생성적 보상 패러다임을 통해 이러한 장벽을 극복하는 확장 가능한 보상 모델링 프레임워크인 RewardDance를 소개합니다. RewardDance는 보상 점수를 특정 기준에 따라 생성된 이미지가 참조 이미지를 능가한다는 "예" 토큰을 예측할 모델의 확률로 재구성함으로써, 보상 목표를 VLM 아키텍처와 본질적으로 일치시킵니다. 이러한 일치는 두 가지 차원에서의 확장을 가능하게 합니다: (1) 모델 확장: RMs를 최대 260억 파라미터까지 체계적으로 확장; (2) 컨텍스트 확장: 작업별 지침, 참조 예시, 그리고 사고의 연쇄(Chain-of-Thought, CoT) 추론의 통합. 광범위한 실험을 통해 RewardDance는 텍스트-이미지, 텍스트-비디오, 이미지-비디오 생성에서 최첨단 방법을 크게 능가함을 입증했습니다. 특히, 우리는 "보상 해킹"이라는 지속적인 문제를 해결했습니다: 우리의 대규모 RMs는 RL 미세 조정 과정에서 높은 보상 분산을 유지하며, 해킹에 대한 저항력과 다양한 고품질 출력을 생성할 수 있음을 입증했습니다. 이는 더 작은 모델을 괴롭히는 모드 붕괴 문제를 크게 완화합니다.
English
Reward Models (RMs) are critical for improving generation models via
Reinforcement Learning (RL), yet the RM scaling paradigm in visual generation
remains largely unexplored. It primarily due to fundamental limitations in
existing approaches: CLIP-based RMs suffer from architectural and input
modality constraints, while prevalent Bradley-Terry losses are fundamentally
misaligned with the next-token prediction mechanism of Vision-Language Models
(VLMs), hindering effective scaling. More critically, the RLHF optimization
process is plagued by Reward Hacking issue, where models exploit flaws in the
reward signal without improving true quality. To address these challenges, we
introduce RewardDance, a scalable reward modeling framework that overcomes
these barriers through a novel generative reward paradigm. By reformulating the
reward score as the model's probability of predicting a "yes" token, indicating
that the generated image outperforms a reference image according to specific
criteria, RewardDance intrinsically aligns reward objectives with VLM
architectures. This alignment unlocks scaling across two dimensions: (1) Model
Scaling: Systematic scaling of RMs up to 26 billion parameters; (2) Context
Scaling: Integration of task-specific instructions, reference examples, and
chain-of-thought (CoT) reasoning. Extensive experiments demonstrate that
RewardDance significantly surpasses state-of-the-art methods in text-to-image,
text-to-video, and image-to-video generation. Crucially, we resolve the
persistent challenge of "reward hacking": Our large-scale RMs exhibit and
maintain high reward variance during RL fine-tuning, proving their resistance
to hacking and ability to produce diverse, high-quality outputs. It greatly
relieves the mode collapse problem that plagues smaller models.