ChatPaper.aiChatPaper

VideoScore2: Denken Sie nach, bevor Sie bewerten – Generative Videoevaluation

VideoScore2: Think before You Score in Generative Video Evaluation

September 26, 2025
papers.authors: Xuan He, Dongfu Jiang, Ping Nie, Minghao Liu, Zhengxuan Jiang, Mingyi Su, Wentao Ma, Junru Lin, Chun Ye, Yi Lu, Keming Wu, Benjamin Schneider, Quy Duc Do, Zhuofeng Li, Yiming Jia, Yuxuan Zhang, Guo Cheng, Haozhe Wang, Wangchunshu Zhou, Qunshu Lin, Yuanxing Zhang, Ge Zhang, Wenhao Huang, Wenhu Chen
cs.AI

papers.abstract

Jüngste Fortschritte in der Text-zu-Video-Generierung haben zunehmend realistische und vielfältige Inhalte hervorgebracht, doch die Bewertung solcher Videos bleibt eine grundlegende Herausforderung aufgrund ihrer vielschichtigen Natur, die visuelle Qualität, semantische Ausrichtung und physikalische Konsistenz umfasst. Bestehende Bewertungssysteme und Belohnungsmodelle beschränken sich auf einzelne undurchsichtige Bewertungen, mangelt es an Interpretierbarkeit oder bieten nur grobe Analysen, was sie unzureichend für die umfassende Beurteilung der Videoqualität macht. Wir präsentieren VideoScore2, ein mehrdimensionales, interpretierbares und menschlich ausgerichtetes Framework, das explizit die visuelle Qualität, die Text-zu-Video-Ausrichtung sowie die physikalische/gesunde Menschenverstand-Konsistenz bewertet und dabei detaillierte Chain-of-Thought-Begründungen liefert. Unser Modell wurde auf einem groß angelegten Datensatz VideoFeedback2 trainiert, der 27.168 von Menschen annotierte Videos mit Bewertungen und Begründungsspuren über drei Dimensionen enthält, wobei eine zweistufige Pipeline aus überwachtem Feinabgleich gefolgt von Reinforcement Learning mit Group Relative Policy Optimization (GRPO) verwendet wird, um die analytische Robustheit zu verbessern. Umfangreiche Experimente zeigen, dass VideoScore2 eine überlegene Leistung mit 44,35 (+5,94) Genauigkeit auf unserem domänenspezifischen Benchmark VideoScore-Bench-v2 und 50,37 (+4,32) durchschnittlicher Leistung über vier domänenübergreifende Benchmarks (VideoGenReward-Bench, VideoPhy2, etc.) erzielt, während es interpretierbare Bewertungen liefert, die die Lücke zwischen Bewertung und kontrollierbarer Generierung durch effektive Belohnungsmodellierung für Best-of-N-Sampling schließen. Projektseite: https://tiger-ai-lab.github.io/VideoScore2/
English
Recent advances in text-to-video generation have produced increasingly realistic and diverse content, yet evaluating such videos remains a fundamental challenge due to their multi-faceted nature encompassing visual quality, semantic alignment, and physical consistency. Existing evaluators and reward models are limited to single opaque scores, lack interpretability, or provide only coarse analysis, making them insufficient for capturing the comprehensive nature of video quality assessment. We present VideoScore2, a multi-dimensional, interpretable, and human-aligned framework that explicitly evaluates visual quality, text-to-video alignment, and physical/common-sense consistency while producing detailed chain-of-thought rationales. Our model is trained on a large-scale dataset VideoFeedback2 containing 27,168 human-annotated videos with both scores and reasoning traces across three dimensions, using a two-stage pipeline of supervised fine-tuning followed by reinforcement learning with Group Relative Policy Optimization (GRPO) to enhance analytical robustness. Extensive experiments demonstrate that VideoScore2 achieves superior performance with 44.35 (+5.94) accuracy on our in-domain benchmark VideoScore-Bench-v2 and 50.37 (+4.32) average performance across four out-of-domain benchmarks (VideoGenReward-Bench, VideoPhy2, etc), while providing interpretable assessments that bridge the gap between evaluation and controllable generation through effective reward modeling for Best-of-N sampling. Project Page: https://tiger-ai-lab.github.io/VideoScore2/
PDF202September 30, 2025