Denken, dann Bewerten: Entkoppeltes Schließen und Bewerten für Video-Belohnungsmodellierung
Think, then Score: Decoupled Reasoning and Scoring for Video Reward Modeling
May 7, 2026
Autoren: Yuan Wang, Ouxiang Li, Yulong Xu, Borui Liao, Jiajun Liang, Jinghan Li, Meng Wang, Xintao Wang, Pengfei Wang, Kuien Liu, Xiang Wang
cs.AI
Zusammenfassung
Jüngste Fortschritte bei generativen Videomodellen werden zunehmend durch Post-Training und Skalierung zur Testzeit vorangetrieben, die beide entscheidend von der Qualität von Video-Belohnungsmodellen (RMs) abhängen. Ein ideales Belohnungsmodell sollte präzise Belohnungen vorhersagen, die mit menschlichen Präferenzen in verschiedenen Szenarien übereinstimmen. Bisherige Paradigmen stehen jedoch vor einem grundlegenden Dilemma: Diskriminative RMs regressieren Belohnungen direkt auf Merkmalen, die durch multimodale große Sprachmodelle (MLLMs) extrahiert werden, ohne explizite Schlussfolgerungen, was sie anfällig für Shortcut-Learning macht und sie stark auf massive Datenskalen für Generalisierung angewiesen sein lässt. Im Gegensatz dazu zeigen generative RMs mit Chain-of-Thought (CoT)-Reasoning eine überlegene Interpretierbarkeit und Generalisierungsfähigkeit, da sie feinkörnige semantische Überwachung nutzen, um die zugrundeliegenden Rationalitäten menschlicher Präferenzen zu internalisieren. Allerdings leiden sie unter inhärenten Optimierungsengpässen aufgrund der Kopplung von Reasoning und Bewertung innerhalb einer einzelnen autoregressiven Inferenzkette.
Um die Generalisierungsvorteile von CoT-Reasoning zu nutzen und gleichzeitig die Trainingsinstabilität der gekoppelten Bewertung zu mildern, führen wir DeScore ein, ein trainningseffizientes und generalisierbares Video-Belohnungsmodell. DeScore verwendet ein entkoppeltes „Think-then-Score“-Paradigma: Ein MLLM generiert zunächst einen expliziten CoT, gefolgt von einem dedizierten diskriminativen Bewertungsmodul, das aus einem lernbaren Abfragetoken und einem Regressionskopf besteht, der die endgültige Belohnung vorhersagt. DeScore wird über einen zweistufigen Rahmen optimiert: (1) ein diskriminativer Kaltstart, der einen zufälligen Maskierungsmechanismus integriert, um robuste Bewertungsfähigkeiten sicherzustellen, und (2) eine Reinforcement-Learning-Phase mit zwei Zielen, die unabhängig die CoT-Reasoning-Qualität verfeinert und die endgültige Belohnung kalibriert, um sicherzustellen, dass höhere Reasoning-Qualität direkt zu besserer Modellleistung führt.
English
Recent advances in generative video models are increasingly driven by post-training and test-time scaling, both of which critically depend on the quality of video reward models (RMs). An ideal reward model should predict accurate rewards that align with human preferences across diverse scenarios. However, existing paradigms face a fundamental dilemma: Discriminative RMs regress rewards directly on features extracted by multimodal large language models (MLLMs) without explicit reasoning, making them prone to shortcut learning and heavily reliant on massive data scaling for generalization. In contrast, Generative RMs with Chain-of-Thought (CoT) reasoning exhibit superior interpretability and generalization potential, as they leverage fine-grained semantic supervision to internalize the rationales behind human preferences. However, they suffer from inherent optimization bottlenecks due to the coupling of reasoning and scoring within a single autoregressive inference chain. To harness the generalization benefits of CoT reasoning while mitigating the training instability of coupled reasoning and scoring, we introduce DeScore, a training-efficient and generalizable video reward model. DeScore employs a decoupled ``think-then-score'' paradigm: an MLLM first generates an explicit CoT, followed by a dedicated discriminative scoring module consisting of a learnable query token and a regression head that predicts the final reward. DeScore is optimized via a two-stage framework: (1) a discriminative cold start incorporating a random mask mechanism to ensure robust scoring capabilities, and (2) a dual-objective reinforcement learning stage that independently refines CoT reasoning quality and calibrates the final reward, ensuring that higher-quality reasoning directly translates to superior model performance.