Denk, dan Beoordeel: Ontkoppeld Redeneren en Beoordelen voor Videobeloningsmodellering
Think, then Score: Decoupled Reasoning and Scoring for Video Reward Modeling
May 7, 2026
Auteurs: Yuan Wang, Ouxiang Li, Yulong Xu, Borui Liao, Jiajun Liang, Jinghan Li, Meng Wang, Xintao Wang, Pengfei Wang, Kuien Liu, Xiang Wang
cs.AI
Samenvatting
Recente vooruitgang in generatieve videomodellen wordt in toenemende mate gedreven door post-training en schaling tijdens de testfase, die beide cruciaal afhankelijk zijn van de kwaliteit van videobeloningsmodellen (RMs). Een ideaal beloningsmodel zou accurate beloningen moeten voorspellen die overeenkomen met menselijke voorkeuren in diverse scenario's. Echter, bestaande paradigma's kampen met een fundamenteel dilemma: Discriminatieve RMs regresseren beloningen direct op kenmerken die zijn geëxtraheerd door multimodale grote taalmodellen (MLLMs) zonder expliciete redenering, waardoor ze vatbaar zijn voor shortcut-leren en sterk afhankelijk zijn van massale dataschaling voor generalisatie. Daarentegen vertonen generatieve RMs met Chain-of-Thought (CoT)-redenering superieure interpreteerbaarheid en generalisatiepotentieel, omdat ze gebruikmaken van fijnmazige semantische supervisie om de redeneringen achter menselijke voorkeuren te internaliseren. Echter, ze lijden onder inherente optimalisatieknelpunten door de koppeling van redenering en scoring binnen een enkele autoregressieve inferentieketen. Om de generalisatievoordelen van CoT-redenering te benutten en tegelijkertijd de traininstabiliteit van gekoppelde redenering en scoring te mitigeren, introduceren wij DeScore, een trainefficiënt en generaliseerbaar videobeloningsmodel. DeScore hanteert een ontkoppeld "denk-dan-score"-paradigma: een MLLM genereert eerst een expliciete CoT, gevolgd door een toegewijd discriminerend scoringsmodule bestaande uit een leerbare query-token en een regressiekop die de uiteindelijke beloning voorspelt. DeScore wordt geoptimaliseerd via een tweefasenraamwerk: (1) een discriminerende koude start met een willekeurig maskermechanisme om robuuste scoringscapaciteiten te waarborgen, en (2) een reinforcement learning-fase met een dubbele doelstelling die onafhankelijk de CoT-redeneerkwaliteit verfijnt en de uiteindelijke beloning kalibreert, zodat hogere redeneerkwaliteit direct vertaalt naar superieure modelprestaties.
English
Recent advances in generative video models are increasingly driven by post-training and test-time scaling, both of which critically depend on the quality of video reward models (RMs). An ideal reward model should predict accurate rewards that align with human preferences across diverse scenarios. However, existing paradigms face a fundamental dilemma: Discriminative RMs regress rewards directly on features extracted by multimodal large language models (MLLMs) without explicit reasoning, making them prone to shortcut learning and heavily reliant on massive data scaling for generalization. In contrast, Generative RMs with Chain-of-Thought (CoT) reasoning exhibit superior interpretability and generalization potential, as they leverage fine-grained semantic supervision to internalize the rationales behind human preferences. However, they suffer from inherent optimization bottlenecks due to the coupling of reasoning and scoring within a single autoregressive inference chain. To harness the generalization benefits of CoT reasoning while mitigating the training instability of coupled reasoning and scoring, we introduce DeScore, a training-efficient and generalizable video reward model. DeScore employs a decoupled ``think-then-score'' paradigm: an MLLM first generates an explicit CoT, followed by a dedicated discriminative scoring module consisting of a learnable query token and a regression head that predicts the final reward. DeScore is optimized via a two-stage framework: (1) a discriminative cold start incorporating a random mask mechanism to ensure robust scoring capabilities, and (2) a dual-objective reinforcement learning stage that independently refines CoT reasoning quality and calibrates the final reward, ensuring that higher-quality reasoning directly translates to superior model performance.