VideoScore2: Rifletti prima di valutare nella valutazione generativa di video
VideoScore2: Think before You Score in Generative Video Evaluation
September 26, 2025
Autori: Xuan He, Dongfu Jiang, Ping Nie, Minghao Liu, Zhengxuan Jiang, Mingyi Su, Wentao Ma, Junru Lin, Chun Ye, Yi Lu, Keming Wu, Benjamin Schneider, Quy Duc Do, Zhuofeng Li, Yiming Jia, Yuxuan Zhang, Guo Cheng, Haozhe Wang, Wangchunshu Zhou, Qunshu Lin, Yuanxing Zhang, Ge Zhang, Wenhao Huang, Wenhu Chen
cs.AI
Abstract
I recenti progressi nella generazione di video da testo hanno prodotto contenuti sempre più realistici e diversificati, ma la valutazione di tali video rimane una sfida fondamentale a causa della loro natura multi-faccettata, che comprende qualità visiva, allineamento semantico e coerenza fisica. Gli attuali valutatori e modelli di ricompensa si limitano a punteggi singoli e opachi, mancano di interpretabilità o forniscono solo analisi grossolane, rendendoli insufficienti per catturare la natura completa della valutazione della qualità video. Presentiamo VideoScore2, un framework multi-dimensionale, interpretabile e allineato con gli esseri umani, che valuta esplicitamente la qualità visiva, l'allineamento testo-video e la coerenza fisica/di buon senso, producendo al contempo dettagliate catene di ragionamento. Il nostro modello è addestrato su un ampio dataset VideoFeedback2 contenente 27.168 video annotati da esseri umani con punteggi e tracce di ragionamento attraverso tre dimensioni, utilizzando una pipeline a due stadi di fine-tuning supervisionato seguita da apprendimento per rinforzo con Group Relative Policy Optimization (GRPO) per migliorare la robustezza analitica. Esperimenti estensivi dimostrano che VideoScore2 raggiunge prestazioni superiori con un'accuratezza del 44.35 (+5.94) sul nostro benchmark in dominio VideoScore-Bench-v2 e una performance media del 50.37 (+4.32) su quattro benchmark fuori dominio (VideoGenReward-Bench, VideoPhy2, ecc.), fornendo al contempo valutazioni interpretabili che colmano il divario tra valutazione e generazione controllata attraverso un efficace modellamento delle ricompense per il campionamento Best-of-N. Pagina del progetto: https://tiger-ai-lab.github.io/VideoScore2/
English
Recent advances in text-to-video generation have produced increasingly
realistic and diverse content, yet evaluating such videos remains a fundamental
challenge due to their multi-faceted nature encompassing visual quality,
semantic alignment, and physical consistency. Existing evaluators and reward
models are limited to single opaque scores, lack interpretability, or provide
only coarse analysis, making them insufficient for capturing the comprehensive
nature of video quality assessment. We present VideoScore2, a
multi-dimensional, interpretable, and human-aligned framework that explicitly
evaluates visual quality, text-to-video alignment, and physical/common-sense
consistency while producing detailed chain-of-thought rationales. Our model is
trained on a large-scale dataset VideoFeedback2 containing 27,168
human-annotated videos with both scores and reasoning traces across three
dimensions, using a two-stage pipeline of supervised fine-tuning followed by
reinforcement learning with Group Relative Policy Optimization (GRPO) to
enhance analytical robustness. Extensive experiments demonstrate that
VideoScore2 achieves superior performance with 44.35 (+5.94) accuracy on our
in-domain benchmark VideoScore-Bench-v2 and 50.37 (+4.32) average performance
across four out-of-domain benchmarks (VideoGenReward-Bench, VideoPhy2, etc),
while providing interpretable assessments that bridge the gap between
evaluation and controllable generation through effective reward modeling for
Best-of-N sampling. Project Page: https://tiger-ai-lab.github.io/VideoScore2/