Piensa, luego Puntúa: Razonamiento y Evaluación Desacoplados para el Modelado de Recompensas en Video

Resumen

Los recientes avances en modelos generativos de video están cada vez más impulsados por el escalado posterior al entrenamiento y en tiempo de prueba, los cuales dependen críticamente de la calidad de los modelos de recompensa (RM) de video. Un modelo de recompensa ideal debería predecir recompensas precisas que se alineen con las preferencias humanas en diversos escenarios. Sin embargo, los paradigmas existentes enfrentan un dilema fundamental: los RM Discriminativos regresan las recompensas directamente sobre características extraídas por modelos de lenguaje grande multimodal (MLLM) sin razonamiento explícito, lo que los hace propensos al aprendizaje por atajos y muy dependientes del escalado masivo de datos para la generalización. Por el contrario, los RM Generativos con razonamiento de Cadena de Pensamiento (CoT) exhiben una superior interpretabilidad y potencial de generalización, ya que aprovechan una supervisión semántica de grano fino para internalizar las razones detrás de las preferencias humanas. No obstante, adolecen de cuellos de botella de optimización inherentes debido al acoplamiento del razonamiento y la puntuación dentro de una única cadena de inferencia autorregresiva. Para aprovechar los beneficios de generalización del razonamiento CoT mitigando la inestabilidad en el entrenamiento del razonamiento y puntuación acoplados, presentamos DeScore, un modelo de recompensa de video eficiente en entrenamiento y generalizable. DeScore emplea un paradigma desacoplado "pensar-y-luego-puntuar": un MLLM primero genera una CoT explícita, seguido por un módulo de puntuación discriminativo dedicado que consiste en un token de consulta entrenable y una cabeza de regresión que predice la recompensa final. DeScore se optimiza mediante un marco de dos etapas: (1) un arranque en frío discriminativo que incorpora un mecanismo de enmascaramiento aleatorio para garantizar capacidades de puntuación robustas, y (2) una etapa de aprendizaje por refuerzo de doble objetivo que refina independientemente la calidad del razonamiento CoT y calibra la recompensa final, asegurando que un razonamiento de mayor calidad se traduzca directamente en un rendimiento superior del modelo.

English

Recent advances in generative video models are increasingly driven by post-training and test-time scaling, both of which critically depend on the quality of video reward models (RMs). An ideal reward model should predict accurate rewards that align with human preferences across diverse scenarios. However, existing paradigms face a fundamental dilemma: Discriminative RMs regress rewards directly on features extracted by multimodal large language models (MLLMs) without explicit reasoning, making them prone to shortcut learning and heavily reliant on massive data scaling for generalization. In contrast, Generative RMs with Chain-of-Thought (CoT) reasoning exhibit superior interpretability and generalization potential, as they leverage fine-grained semantic supervision to internalize the rationales behind human preferences. However, they suffer from inherent optimization bottlenecks due to the coupling of reasoning and scoring within a single autoregressive inference chain. To harness the generalization benefits of CoT reasoning while mitigating the training instability of coupled reasoning and scoring, we introduce DeScore, a training-efficient and generalizable video reward model. DeScore employs a decoupled ``think-then-score'' paradigm: an MLLM first generates an explicit CoT, followed by a dedicated discriminative scoring module consisting of a learnable query token and a regression head that predicts the final reward. DeScore is optimized via a two-stage framework: (1) a discriminative cold start incorporating a random mask mechanism to ensure robust scoring capabilities, and (2) a dual-objective reinforcement learning stage that independently refines CoT reasoning quality and calibrates the final reward, ensuring that higher-quality reasoning directly translates to superior model performance.

Piensa, luego Puntúa: Razonamiento y Evaluación Desacoplados para el Modelado de Recompensas en Video

Think, then Score: Decoupled Reasoning and Scoring for Video Reward Modeling

Resumen

Support