RewardDance : Mise à l'échelle des récompenses dans la génération visuelle
RewardDance: Reward Scaling in Visual Generation
September 10, 2025
papers.authors: Jie Wu, Yu Gao, Zilyu Ye, Ming Li, Liang Li, Hanzhong Guo, Jie Liu, Zeyue Xue, Xiaoxia Hou, Wei Liu, Yan Zeng, Weilin Huang
cs.AI
papers.abstract
Les modèles de récompense (Reward Models, RMs) sont essentiels pour améliorer les modèles de génération via l'apprentissage par renforcement (Reinforcement Learning, RL), mais le paradigme de mise à l'échelle des RMs dans la génération visuelle reste largement inexploré. Cela est principalement dû aux limitations fondamentales des approches existantes : les RMs basés sur CLIP souffrent de contraintes architecturales et de modalités d'entrée, tandis que les pertes Bradley-Terry couramment utilisées sont fondamentalement mal alignées avec le mécanisme de prédiction de token suivant des modèles vision-langage (Vision-Language Models, VLMs), entravant une mise à l'échelle efficace. Plus critique encore, le processus d'optimisation RLHF est entaché par le problème de "Reward Hacking", où les modèles exploitent les failles du signal de récompense sans améliorer la véritable qualité. Pour relever ces défis, nous introduisons RewardDance, un cadre de modélisation de récompense scalable qui surmonte ces obstacles grâce à un nouveau paradigme de récompense générative. En reformulant le score de récompense comme la probabilité du modèle de prédire un token "oui", indiquant que l'image générée surpasse une image de référence selon des critères spécifiques, RewardDance aligne intrinsèquement les objectifs de récompense avec les architectures des VLMs. Cet alignement permet une mise à l'échelle selon deux dimensions : (1) Mise à l'échelle des modèles : Mise à l'échelle systématique des RMs jusqu'à 26 milliards de paramètres ; (2) Mise à l'échelle du contexte : Intégration d'instructions spécifiques à la tâche, d'exemples de référence et de raisonnement en chaîne (Chain-of-Thought, CoT). Des expériences approfondies démontrent que RewardDance surpasse significativement les méthodes de pointe dans la génération texte-image, texte-vidéo et image-vidéo. Surtout, nous résolvons le défi persistant du "reward hacking" : Nos RMs à grande échelle affichent et maintiennent une variance de récompense élevée lors du réglage fin par RL, prouvant leur résistance au hacking et leur capacité à produire des sorties diversifiées et de haute qualité. Cela atténue grandement le problème d'effondrement modal qui affecte les modèles plus petits.
English
Reward Models (RMs) are critical for improving generation models via
Reinforcement Learning (RL), yet the RM scaling paradigm in visual generation
remains largely unexplored. It primarily due to fundamental limitations in
existing approaches: CLIP-based RMs suffer from architectural and input
modality constraints, while prevalent Bradley-Terry losses are fundamentally
misaligned with the next-token prediction mechanism of Vision-Language Models
(VLMs), hindering effective scaling. More critically, the RLHF optimization
process is plagued by Reward Hacking issue, where models exploit flaws in the
reward signal without improving true quality. To address these challenges, we
introduce RewardDance, a scalable reward modeling framework that overcomes
these barriers through a novel generative reward paradigm. By reformulating the
reward score as the model's probability of predicting a "yes" token, indicating
that the generated image outperforms a reference image according to specific
criteria, RewardDance intrinsically aligns reward objectives with VLM
architectures. This alignment unlocks scaling across two dimensions: (1) Model
Scaling: Systematic scaling of RMs up to 26 billion parameters; (2) Context
Scaling: Integration of task-specific instructions, reference examples, and
chain-of-thought (CoT) reasoning. Extensive experiments demonstrate that
RewardDance significantly surpasses state-of-the-art methods in text-to-image,
text-to-video, and image-to-video generation. Crucially, we resolve the
persistent challenge of "reward hacking": Our large-scale RMs exhibit and
maintain high reward variance during RL fine-tuning, proving their resistance
to hacking and ability to produce diverse, high-quality outputs. It greatly
relieves the mode collapse problem that plagues smaller models.