ChatPaper.aiChatPaper

VideoScore2: Denk na voordat je scoort in generatieve video-evaluatie

VideoScore2: Think before You Score in Generative Video Evaluation

September 26, 2025
Auteurs: Xuan He, Dongfu Jiang, Ping Nie, Minghao Liu, Zhengxuan Jiang, Mingyi Su, Wentao Ma, Junru Lin, Chun Ye, Yi Lu, Keming Wu, Benjamin Schneider, Quy Duc Do, Zhuofeng Li, Yiming Jia, Yuxuan Zhang, Guo Cheng, Haozhe Wang, Wangchunshu Zhou, Qunshu Lin, Yuanxing Zhang, Ge Zhang, Wenhao Huang, Wenhu Chen
cs.AI

Samenvatting

Recente vooruitgang in tekst-naar-video-generatie heeft steeds realistischer en diverser materiaal opgeleverd, maar het evalueren van dergelijke video's blijft een fundamentele uitdaging vanwege hun veelzijdige aard, die visuele kwaliteit, semantische uitlijning en fysieke consistentie omvat. Bestaande evaluatoren en beloningsmodellen zijn beperkt tot enkele ondoorzichtige scores, missen interpreteerbaarheid of bieden alleen grove analyses, waardoor ze onvoldoende zijn om de uitgebreide aard van videokwaliteitsbeoordeling vast te leggen. Wij presenteren VideoScore2, een multidimensionaal, interpreteerbaar en mensgericht raamwerk dat expliciet visuele kwaliteit, tekst-naar-video-uitlijning en fysieke/gezond-verstand-consistentie evalueert, terwijl het gedetailleerde redeneersporen produceert. Ons model is getraind op een grootschalige dataset VideoFeedback2, die 27.168 door mensen geannoteerde video's bevat met zowel scores als redeneersporen over drie dimensies, met behulp van een tweestaps pijplijn van supervised fine-tuning gevolgd door reinforcement learning met Group Relative Policy Optimization (GRPO) om de analytische robuustheid te vergroten. Uitgebreide experimenten tonen aan dat VideoScore2 superieure prestaties bereikt met een nauwkeurigheid van 44,35 (+5,94) op onze domeinspecifieke benchmark VideoScore-Bench-v2 en een gemiddelde prestatie van 50,37 (+4,32) over vier domeinoverstijgende benchmarks (VideoGenReward-Bench, VideoPhy2, etc.), terwijl het interpreteerbare beoordelingen biedt die de kloof tussen evaluatie en beheerbare generatie overbruggen door effectieve beloningsmodellering voor Best-of-N sampling. Projectpagina: https://tiger-ai-lab.github.io/VideoScore2/
English
Recent advances in text-to-video generation have produced increasingly realistic and diverse content, yet evaluating such videos remains a fundamental challenge due to their multi-faceted nature encompassing visual quality, semantic alignment, and physical consistency. Existing evaluators and reward models are limited to single opaque scores, lack interpretability, or provide only coarse analysis, making them insufficient for capturing the comprehensive nature of video quality assessment. We present VideoScore2, a multi-dimensional, interpretable, and human-aligned framework that explicitly evaluates visual quality, text-to-video alignment, and physical/common-sense consistency while producing detailed chain-of-thought rationales. Our model is trained on a large-scale dataset VideoFeedback2 containing 27,168 human-annotated videos with both scores and reasoning traces across three dimensions, using a two-stage pipeline of supervised fine-tuning followed by reinforcement learning with Group Relative Policy Optimization (GRPO) to enhance analytical robustness. Extensive experiments demonstrate that VideoScore2 achieves superior performance with 44.35 (+5.94) accuracy on our in-domain benchmark VideoScore-Bench-v2 and 50.37 (+4.32) average performance across four out-of-domain benchmarks (VideoGenReward-Bench, VideoPhy2, etc), while providing interpretable assessments that bridge the gap between evaluation and controllable generation through effective reward modeling for Best-of-N sampling. Project Page: https://tiger-ai-lab.github.io/VideoScore2/
PDF242September 30, 2025