Penser, puis Noter : Raisonnement et Évaluation Découplés pour la Modélisation des Récompenses Vidéo

Résumé

Les progrès récents des modèles génératifs vidéo sont de plus en plus portés par le *scaling* post-entraînement et au moment du test, deux aspects qui dépendent crucialement de la qualité des modèles de récompense (*reward models* ou RMs) vidéo. Un modèle de récompense idéal devrait prédire des récompenses précises, alignées sur les préférences humaines dans des scénarios divers. Cependant, les paradigmes existants sont confrontés à un dilemme fondamental : les RMs discriminatifs régressent directement les récompenses sur des caractéristiques extraites par des modèles de langage multimodaux (*Multimodal Large Language Models* ou MLLMs) sans raisonnement explicite, ce qui les rend sujets à l'apprentissage de raccourcis et fortement dépendants d'un *scaling* massif des données pour la généralisation. En revanche, les RMs génératifs avec un raisonnement en chaîne de pensée (*Chain-of-Thought* ou CoT) présentent une interprétabilité et un potentiel de généralisation supérieurs, car ils exploitent une supervision sémantique fine pour internaliser les raisons sous-jacentes aux préférences humaines. Cependant, ils souffrent de goulots d'étranglement d'optimisation inhérents dus au couplage du raisonnement et de la notation au sein d'une seule chaîne d'inférence autorégressive. Pour tirer parti des avantages de généralisation du raisonnement CoT tout en atténuant l'instabilité de l'entraînement causée par le couplage raisonnement-notation, nous présentons DeScore, un modèle de récompense vidéo efficace à entraîner et généralisable. DeScore emploie un paradigme découplé « penser puis noter » (*think-then-score*) : un MLLM génère d'abord un CoT explicite, suivi par un module de notation discriminatif dédié composé d'un jeton requête (*query token*) apprenable et d'une tête de régression qui prédit la récompense finale. DeScore est optimisé via un cadre en deux étapes : (1) un démarrage à froid (*cold start*) discriminatif incorporant un mécanisme de masquage aléatoire pour garantir des capacités de notation robustes, et (2) une étape d'apprentissage par renforcement à double objectif qui affine indépendamment la qualité du raisonnement CoT et calibre la récompense finale, garantissant qu'un raisonnement de meilleure qualité se traduise directement par des performances supérieures du modèle.

English

Recent advances in generative video models are increasingly driven by post-training and test-time scaling, both of which critically depend on the quality of video reward models (RMs). An ideal reward model should predict accurate rewards that align with human preferences across diverse scenarios. However, existing paradigms face a fundamental dilemma: Discriminative RMs regress rewards directly on features extracted by multimodal large language models (MLLMs) without explicit reasoning, making them prone to shortcut learning and heavily reliant on massive data scaling for generalization. In contrast, Generative RMs with Chain-of-Thought (CoT) reasoning exhibit superior interpretability and generalization potential, as they leverage fine-grained semantic supervision to internalize the rationales behind human preferences. However, they suffer from inherent optimization bottlenecks due to the coupling of reasoning and scoring within a single autoregressive inference chain. To harness the generalization benefits of CoT reasoning while mitigating the training instability of coupled reasoning and scoring, we introduce DeScore, a training-efficient and generalizable video reward model. DeScore employs a decoupled ``think-then-score'' paradigm: an MLLM first generates an explicit CoT, followed by a dedicated discriminative scoring module consisting of a learnable query token and a regression head that predicts the final reward. DeScore is optimized via a two-stage framework: (1) a discriminative cold start incorporating a random mask mechanism to ensure robust scoring capabilities, and (2) a dual-objective reinforcement learning stage that independently refines CoT reasoning quality and calibrates the final reward, ensuring that higher-quality reasoning directly translates to superior model performance.

Penser, puis Noter : Raisonnement et Évaluation Découplés pour la Modélisation des Récompenses Vidéo

Think, then Score: Decoupled Reasoning and Scoring for Video Reward Modeling

Résumé

Support