ChatPaper.aiChatPaper

RewardDance : Mise à l'échelle des récompenses dans la génération visuelle

RewardDance: Reward Scaling in Visual Generation

September 10, 2025
papers.authors: Jie Wu, Yu Gao, Zilyu Ye, Ming Li, Liang Li, Hanzhong Guo, Jie Liu, Zeyue Xue, Xiaoxia Hou, Wei Liu, Yan Zeng, Weilin Huang
cs.AI

papers.abstract

Les modèles de récompense (Reward Models, RMs) sont essentiels pour améliorer les modèles de génération via l'apprentissage par renforcement (Reinforcement Learning, RL), mais le paradigme de mise à l'échelle des RMs dans la génération visuelle reste largement inexploré. Cela est principalement dû aux limitations fondamentales des approches existantes : les RMs basés sur CLIP souffrent de contraintes architecturales et de modalités d'entrée, tandis que les pertes Bradley-Terry couramment utilisées sont fondamentalement mal alignées avec le mécanisme de prédiction de token suivant des modèles vision-langage (Vision-Language Models, VLMs), entravant une mise à l'échelle efficace. Plus critique encore, le processus d'optimisation RLHF est entaché par le problème de "Reward Hacking", où les modèles exploitent les failles du signal de récompense sans améliorer la véritable qualité. Pour relever ces défis, nous introduisons RewardDance, un cadre de modélisation de récompense scalable qui surmonte ces obstacles grâce à un nouveau paradigme de récompense générative. En reformulant le score de récompense comme la probabilité du modèle de prédire un token "oui", indiquant que l'image générée surpasse une image de référence selon des critères spécifiques, RewardDance aligne intrinsèquement les objectifs de récompense avec les architectures des VLMs. Cet alignement permet une mise à l'échelle selon deux dimensions : (1) Mise à l'échelle des modèles : Mise à l'échelle systématique des RMs jusqu'à 26 milliards de paramètres ; (2) Mise à l'échelle du contexte : Intégration d'instructions spécifiques à la tâche, d'exemples de référence et de raisonnement en chaîne (Chain-of-Thought, CoT). Des expériences approfondies démontrent que RewardDance surpasse significativement les méthodes de pointe dans la génération texte-image, texte-vidéo et image-vidéo. Surtout, nous résolvons le défi persistant du "reward hacking" : Nos RMs à grande échelle affichent et maintiennent une variance de récompense élevée lors du réglage fin par RL, prouvant leur résistance au hacking et leur capacité à produire des sorties diversifiées et de haute qualité. Cela atténue grandement le problème d'effondrement modal qui affecte les modèles plus petits.
English
Reward Models (RMs) are critical for improving generation models via Reinforcement Learning (RL), yet the RM scaling paradigm in visual generation remains largely unexplored. It primarily due to fundamental limitations in existing approaches: CLIP-based RMs suffer from architectural and input modality constraints, while prevalent Bradley-Terry losses are fundamentally misaligned with the next-token prediction mechanism of Vision-Language Models (VLMs), hindering effective scaling. More critically, the RLHF optimization process is plagued by Reward Hacking issue, where models exploit flaws in the reward signal without improving true quality. To address these challenges, we introduce RewardDance, a scalable reward modeling framework that overcomes these barriers through a novel generative reward paradigm. By reformulating the reward score as the model's probability of predicting a "yes" token, indicating that the generated image outperforms a reference image according to specific criteria, RewardDance intrinsically aligns reward objectives with VLM architectures. This alignment unlocks scaling across two dimensions: (1) Model Scaling: Systematic scaling of RMs up to 26 billion parameters; (2) Context Scaling: Integration of task-specific instructions, reference examples, and chain-of-thought (CoT) reasoning. Extensive experiments demonstrate that RewardDance significantly surpasses state-of-the-art methods in text-to-image, text-to-video, and image-to-video generation. Crucially, we resolve the persistent challenge of "reward hacking": Our large-scale RMs exhibit and maintain high reward variance during RL fine-tuning, proving their resistance to hacking and ability to produce diverse, high-quality outputs. It greatly relieves the mode collapse problem that plagues smaller models.
PDF572September 11, 2025