VideoScore2: Подумай, прежде чем оценивать в генеративной видеооценке
VideoScore2: Think before You Score in Generative Video Evaluation
September 26, 2025
Авторы: Xuan He, Dongfu Jiang, Ping Nie, Minghao Liu, Zhengxuan Jiang, Mingyi Su, Wentao Ma, Junru Lin, Chun Ye, Yi Lu, Keming Wu, Benjamin Schneider, Quy Duc Do, Zhuofeng Li, Yiming Jia, Yuxuan Zhang, Guo Cheng, Haozhe Wang, Wangchunshu Zhou, Qunshu Lin, Yuanxing Zhang, Ge Zhang, Wenhao Huang, Wenhu Chen
cs.AI
Аннотация
Последние достижения в области генерации видео из текста позволили создавать всё более реалистичный и разнообразный контент, однако оценка таких видео остаётся фундаментальной проблемой из-за их многогранной природы, включающей визуальное качество, семантическое соответствие и физическую согласованность. Существующие методы оценки и модели вознаграждения ограничиваются едиными непрозрачными баллами, лишены интерпретируемости или предоставляют лишь грубый анализ, что делает их недостаточными для всесторонней оценки качества видео. Мы представляем VideoScore2 — многомерную, интерпретируемую и согласованную с человеческим восприятием систему, которая явно оценивает визуальное качество, соответствие текста и видео, а также физическую/здравомыслящую согласованность, предоставляя детальные обоснования в виде цепочки рассуждений. Наша модель обучена на крупномасштабном наборе данных VideoFeedback2, содержащем 27 168 видео с аннотациями, включающими оценки и траектории рассуждений по трём измерениям, с использованием двухэтапного подхода: контролируемого тонкого обучения с последующим обучением с подкреплением с помощью Group Relative Policy Optimization (GRPO) для повышения аналитической устойчивости. Экстенсивные эксперименты демонстрируют, что VideoScore2 достигает превосходной производительности с точностью 44,35 (+5,94) на нашем внутреннем бенчмарке VideoScore-Bench-v2 и средним показателем 50,37 (+4,32) на четырёх внешних бенчмарках (VideoGenReward-Bench, VideoPhy2 и др.), предоставляя интерпретируемые оценки, которые сокращают разрыв между оценкой и управляемой генерацией через эффективное моделирование вознаграждения для выборки Best-of-N. Страница проекта: https://tiger-ai-lab.github.io/VideoScore2/
English
Recent advances in text-to-video generation have produced increasingly
realistic and diverse content, yet evaluating such videos remains a fundamental
challenge due to their multi-faceted nature encompassing visual quality,
semantic alignment, and physical consistency. Existing evaluators and reward
models are limited to single opaque scores, lack interpretability, or provide
only coarse analysis, making them insufficient for capturing the comprehensive
nature of video quality assessment. We present VideoScore2, a
multi-dimensional, interpretable, and human-aligned framework that explicitly
evaluates visual quality, text-to-video alignment, and physical/common-sense
consistency while producing detailed chain-of-thought rationales. Our model is
trained on a large-scale dataset VideoFeedback2 containing 27,168
human-annotated videos with both scores and reasoning traces across three
dimensions, using a two-stage pipeline of supervised fine-tuning followed by
reinforcement learning with Group Relative Policy Optimization (GRPO) to
enhance analytical robustness. Extensive experiments demonstrate that
VideoScore2 achieves superior performance with 44.35 (+5.94) accuracy on our
in-domain benchmark VideoScore-Bench-v2 and 50.37 (+4.32) average performance
across four out-of-domain benchmarks (VideoGenReward-Bench, VideoPhy2, etc),
while providing interpretable assessments that bridge the gap between
evaluation and controllable generation through effective reward modeling for
Best-of-N sampling. Project Page: https://tiger-ai-lab.github.io/VideoScore2/