VideoScore2: Pense antes de pontuar na avaliação de vídeos generativos
VideoScore2: Think before You Score in Generative Video Evaluation
September 26, 2025
Autores: Xuan He, Dongfu Jiang, Ping Nie, Minghao Liu, Zhengxuan Jiang, Mingyi Su, Wentao Ma, Junru Lin, Chun Ye, Yi Lu, Keming Wu, Benjamin Schneider, Quy Duc Do, Zhuofeng Li, Yiming Jia, Yuxuan Zhang, Guo Cheng, Haozhe Wang, Wangchunshu Zhou, Qunshu Lin, Yuanxing Zhang, Ge Zhang, Wenhao Huang, Wenhu Chen
cs.AI
Resumo
Os avanços recentes na geração de texto para vídeo têm produzido conteúdos cada vez mais realistas e diversificados, mas a avaliação desses vídeos continua sendo um desafio fundamental devido à sua natureza multifacetada, que abrange qualidade visual, alinhamento semântico e consistência física. Os avaliadores e modelos de recompensa existentes são limitados a pontuações únicas e opacas, carecem de interpretabilidade ou fornecem apenas análises superficiais, tornando-os insuficientes para capturar a natureza abrangente da avaliação da qualidade de vídeo. Apresentamos o VideoScore2, uma estrutura multidimensional, interpretável e alinhada com humanos que avalia explicitamente a qualidade visual, o alinhamento texto-vídeo e a consistência física/de senso comum, enquanto produz justificativas detalhadas em cadeia de pensamento. Nosso modelo é treinado em um conjunto de dados em larga escala, o VideoFeedback2, contendo 27.168 vídeos anotados por humanos com pontuações e rastros de raciocínio em três dimensões, utilizando um pipeline de duas etapas: ajuste fino supervisionado seguido de aprendizado por reforço com Otimização de Política Relativa de Grupo (GRPO) para aprimorar a robustez analítica. Experimentos extensivos demonstram que o VideoScore2 alcança desempenho superior com 44,35 (+5,94) de precisão em nosso benchmark interno VideoScore-Bench-v2 e 50,37 (+4,32) de desempenho médio em quatro benchmarks externos (VideoGenReward-Bench, VideoPhy2, etc.), enquanto fornece avaliações interpretáveis que preenchem a lacuna entre avaliação e geração controlável por meio de modelagem eficaz de recompensa para amostragem Best-of-N. Página do Projeto: https://tiger-ai-lab.github.io/VideoScore2/
English
Recent advances in text-to-video generation have produced increasingly
realistic and diverse content, yet evaluating such videos remains a fundamental
challenge due to their multi-faceted nature encompassing visual quality,
semantic alignment, and physical consistency. Existing evaluators and reward
models are limited to single opaque scores, lack interpretability, or provide
only coarse analysis, making them insufficient for capturing the comprehensive
nature of video quality assessment. We present VideoScore2, a
multi-dimensional, interpretable, and human-aligned framework that explicitly
evaluates visual quality, text-to-video alignment, and physical/common-sense
consistency while producing detailed chain-of-thought rationales. Our model is
trained on a large-scale dataset VideoFeedback2 containing 27,168
human-annotated videos with both scores and reasoning traces across three
dimensions, using a two-stage pipeline of supervised fine-tuning followed by
reinforcement learning with Group Relative Policy Optimization (GRPO) to
enhance analytical robustness. Extensive experiments demonstrate that
VideoScore2 achieves superior performance with 44.35 (+5.94) accuracy on our
in-domain benchmark VideoScore-Bench-v2 and 50.37 (+4.32) average performance
across four out-of-domain benchmarks (VideoGenReward-Bench, VideoPhy2, etc),
while providing interpretable assessments that bridge the gap between
evaluation and controllable generation through effective reward modeling for
Best-of-N sampling. Project Page: https://tiger-ai-lab.github.io/VideoScore2/