VideoScore2: 생성형 비디오 평가에서 점수 매기기 전에 신중히 생각하라
VideoScore2: Think before You Score in Generative Video Evaluation
September 26, 2025
저자: Xuan He, Dongfu Jiang, Ping Nie, Minghao Liu, Zhengxuan Jiang, Mingyi Su, Wentao Ma, Junru Lin, Chun Ye, Yi Lu, Keming Wu, Benjamin Schneider, Quy Duc Do, Zhuofeng Li, Yiming Jia, Yuxuan Zhang, Guo Cheng, Haozhe Wang, Wangchunshu Zhou, Qunshu Lin, Yuanxing Zhang, Ge Zhang, Wenhao Huang, Wenhu Chen
cs.AI
초록
텍스트-투-비디오 생성 분야의 최근 발전은 점점 더 사실적이고 다양한 콘텐츠를 생산해내고 있지만, 이러한 비디오를 평가하는 것은 시각적 품질, 의미론적 정렬, 물리적 일관성 등 다면적인 특성으로 인해 여전히 근본적인 과제로 남아 있습니다. 기존의 평가자 및 보상 모델은 단일 불투명 점수에 국한되거나 해석 가능성이 부족하며, 단순한 분석만을 제공하여 비디오 품질 평가의 포괄적인 특성을 충분히 반영하지 못하고 있습니다. 우리는 VideoScore2를 제안합니다. 이는 시각적 품질, 텍스트-투-비디오 정렬, 물리적/상식적 일관성을 명시적으로 평가하면서 상세한 사고 과정(chain-of-thought) 근거를 생성하는 다차원적이고 해석 가능하며 인간과 일치하는 프레임워크입니다. 우리의 모델은 27,168개의 인간 주석이 달린 비디오로 구성된 대규모 데이터셋 VideoFeedback2를 사용하여 세 가지 차원에 걸친 점수와 추적 가능한 추론을 통해 훈련되었으며, 지도 미세 조정 단계와 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 통한 강화 학습의 두 단계 파이프라인을 사용하여 분석적 견고성을 강화했습니다. 광범위한 실험을 통해 VideoScore2는 우리의 도메인 내 벤치마크 VideoScore-Bench-v2에서 44.35(+5.94)의 정확도를 달성하고, 네 가지 도메인 외 벤치마크(VideoGenReward-Bench, VideoPhy2 등)에서 평균 50.37(+4.32)의 성능을 보여주며, Best-of-N 샘플링을 위한 효과적인 보상 모델링을 통해 평가와 제어 가능한 생성 간의 간극을 해석 가능한 평가로 메웁니다. 프로젝트 페이지: https://tiger-ai-lab.github.io/VideoScore2/
English
Recent advances in text-to-video generation have produced increasingly
realistic and diverse content, yet evaluating such videos remains a fundamental
challenge due to their multi-faceted nature encompassing visual quality,
semantic alignment, and physical consistency. Existing evaluators and reward
models are limited to single opaque scores, lack interpretability, or provide
only coarse analysis, making them insufficient for capturing the comprehensive
nature of video quality assessment. We present VideoScore2, a
multi-dimensional, interpretable, and human-aligned framework that explicitly
evaluates visual quality, text-to-video alignment, and physical/common-sense
consistency while producing detailed chain-of-thought rationales. Our model is
trained on a large-scale dataset VideoFeedback2 containing 27,168
human-annotated videos with both scores and reasoning traces across three
dimensions, using a two-stage pipeline of supervised fine-tuning followed by
reinforcement learning with Group Relative Policy Optimization (GRPO) to
enhance analytical robustness. Extensive experiments demonstrate that
VideoScore2 achieves superior performance with 44.35 (+5.94) accuracy on our
in-domain benchmark VideoScore-Bench-v2 and 50.37 (+4.32) average performance
across four out-of-domain benchmarks (VideoGenReward-Bench, VideoPhy2, etc),
while providing interpretable assessments that bridge the gap between
evaluation and controllable generation through effective reward modeling for
Best-of-N sampling. Project Page: https://tiger-ai-lab.github.io/VideoScore2/