ChatPaper.aiChatPaper

VideoScore2: Piensa antes de puntuar en la evaluación de videos generativos

VideoScore2: Think before You Score in Generative Video Evaluation

September 26, 2025
Autores: Xuan He, Dongfu Jiang, Ping Nie, Minghao Liu, Zhengxuan Jiang, Mingyi Su, Wentao Ma, Junru Lin, Chun Ye, Yi Lu, Keming Wu, Benjamin Schneider, Quy Duc Do, Zhuofeng Li, Yiming Jia, Yuxuan Zhang, Guo Cheng, Haozhe Wang, Wangchunshu Zhou, Qunshu Lin, Yuanxing Zhang, Ge Zhang, Wenhao Huang, Wenhu Chen
cs.AI

Resumen

Los recientes avances en la generación de texto a video han producido contenido cada vez más realista y diverso; sin embargo, evaluar dichos videos sigue siendo un desafío fundamental debido a su naturaleza multifacética, que abarca calidad visual, alineación semántica y consistencia física. Los evaluadores y modelos de recompensa existentes se limitan a puntuaciones únicas y opacas, carecen de interpretabilidad o proporcionan solo análisis superficiales, lo que los hace insuficientes para capturar la naturaleza integral de la evaluación de la calidad del video. Presentamos VideoScore2, un marco multidimensional, interpretable y alineado con humanos que evalúa explícitamente la calidad visual, la alineación texto-video y la consistencia física/de sentido común, mientras genera razonamientos detallados en cadena de pensamiento. Nuestro modelo se entrena en un conjunto de datos a gran escala, VideoFeedback2, que contiene 27,168 videos anotados por humanos con puntuaciones y trazas de razonamiento en tres dimensiones, utilizando una canalización de dos etapas que incluye ajuste fino supervisado seguido de aprendizaje por refuerzo con Optimización de Política Relativa de Grupo (GRPO) para mejorar la robustez analítica. Experimentos extensos demuestran que VideoScore2 logra un rendimiento superior con una precisión de 44.35 (+5.94) en nuestro punto de referencia interno VideoScore-Bench-v2 y un rendimiento promedio de 50.37 (+4.32) en cuatro puntos de referencia externos (VideoGenReward-Bench, VideoPhy2, etc.), al tiempo que proporciona evaluaciones interpretables que cierran la brecha entre la evaluación y la generación controlable mediante un modelado efectivo de recompensas para el muestreo Best-of-N. Página del proyecto: https://tiger-ai-lab.github.io/VideoScore2/
English
Recent advances in text-to-video generation have produced increasingly realistic and diverse content, yet evaluating such videos remains a fundamental challenge due to their multi-faceted nature encompassing visual quality, semantic alignment, and physical consistency. Existing evaluators and reward models are limited to single opaque scores, lack interpretability, or provide only coarse analysis, making them insufficient for capturing the comprehensive nature of video quality assessment. We present VideoScore2, a multi-dimensional, interpretable, and human-aligned framework that explicitly evaluates visual quality, text-to-video alignment, and physical/common-sense consistency while producing detailed chain-of-thought rationales. Our model is trained on a large-scale dataset VideoFeedback2 containing 27,168 human-annotated videos with both scores and reasoning traces across three dimensions, using a two-stage pipeline of supervised fine-tuning followed by reinforcement learning with Group Relative Policy Optimization (GRPO) to enhance analytical robustness. Extensive experiments demonstrate that VideoScore2 achieves superior performance with 44.35 (+5.94) accuracy on our in-domain benchmark VideoScore-Bench-v2 and 50.37 (+4.32) average performance across four out-of-domain benchmarks (VideoGenReward-Bench, VideoPhy2, etc), while providing interpretable assessments that bridge the gap between evaluation and controllable generation through effective reward modeling for Best-of-N sampling. Project Page: https://tiger-ai-lab.github.io/VideoScore2/
PDF202September 30, 2025