ChatPaper.aiChatPaper

VideoScore2 : Réfléchissez avant d'évaluer dans le cadre de l'évaluation générative de vidéos

VideoScore2: Think before You Score in Generative Video Evaluation

September 26, 2025
papers.authors: Xuan He, Dongfu Jiang, Ping Nie, Minghao Liu, Zhengxuan Jiang, Mingyi Su, Wentao Ma, Junru Lin, Chun Ye, Yi Lu, Keming Wu, Benjamin Schneider, Quy Duc Do, Zhuofeng Li, Yiming Jia, Yuxuan Zhang, Guo Cheng, Haozhe Wang, Wangchunshu Zhou, Qunshu Lin, Yuanxing Zhang, Ge Zhang, Wenhao Huang, Wenhu Chen
cs.AI

papers.abstract

Les récents progrès dans la génération de texte-à-vidéo ont produit un contenu de plus en plus réaliste et diversifié, mais l'évaluation de ces vidéos reste un défi fondamental en raison de leur nature multidimensionnelle, englobant la qualité visuelle, l'alignement sémantique et la cohérence physique. Les évaluateurs et modèles de récompense existants se limitent à des scores uniques et opaques, manquent d'interprétabilité ou ne fournissent qu'une analyse grossière, ce qui les rend insuffisants pour capturer la nature complète de l'évaluation de la qualité vidéo. Nous présentons VideoScore2, un cadre multidimensionnel, interprétable et aligné sur l'humain, qui évalue explicitement la qualité visuelle, l'alignement texte-à-vidéo et la cohérence physique/de bon sens tout en produisant des justifications détaillées en chaîne de pensée. Notre modèle est entraîné sur un jeu de données à grande échelle, VideoFeedback2, contenant 27 168 vidéos annotées par des humains avec des scores et des traces de raisonnement sur trois dimensions, en utilisant un pipeline en deux étapes : un réglage fin supervisé suivi d'un apprentissage par renforcement avec l'optimisation de politique relative par groupe (GRPO) pour renforcer la robustesse analytique. Des expériences approfondies démontrent que VideoScore2 atteint une performance supérieure avec une précision de 44,35 (+5,94) sur notre benchmark interne VideoScore-Bench-v2 et une performance moyenne de 50,37 (+4,32) sur quatre benchmarks externes (VideoGenReward-Bench, VideoPhy2, etc.), tout en fournissant des évaluations interprétables qui comblent le fossé entre l'évaluation et la génération contrôlée grâce à une modélisation efficace des récompenses pour l'échantillonnage Best-of-N. Page du projet : https://tiger-ai-lab.github.io/VideoScore2/
English
Recent advances in text-to-video generation have produced increasingly realistic and diverse content, yet evaluating such videos remains a fundamental challenge due to their multi-faceted nature encompassing visual quality, semantic alignment, and physical consistency. Existing evaluators and reward models are limited to single opaque scores, lack interpretability, or provide only coarse analysis, making them insufficient for capturing the comprehensive nature of video quality assessment. We present VideoScore2, a multi-dimensional, interpretable, and human-aligned framework that explicitly evaluates visual quality, text-to-video alignment, and physical/common-sense consistency while producing detailed chain-of-thought rationales. Our model is trained on a large-scale dataset VideoFeedback2 containing 27,168 human-annotated videos with both scores and reasoning traces across three dimensions, using a two-stage pipeline of supervised fine-tuning followed by reinforcement learning with Group Relative Policy Optimization (GRPO) to enhance analytical robustness. Extensive experiments demonstrate that VideoScore2 achieves superior performance with 44.35 (+5.94) accuracy on our in-domain benchmark VideoScore-Bench-v2 and 50.37 (+4.32) average performance across four out-of-domain benchmarks (VideoGenReward-Bench, VideoPhy2, etc), while providing interpretable assessments that bridge the gap between evaluation and controllable generation through effective reward modeling for Best-of-N sampling. Project Page: https://tiger-ai-lab.github.io/VideoScore2/
PDF202September 30, 2025