MantisScore: ビデオ生成のための細粒度な人間のフィードバックをシミュレートする自動評価指標の構築
MantisScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation
June 21, 2024
著者: Xuan He, Dongfu Jiang, Ge Zhang, Max Ku, Achint Soni, Sherman Siu, Haonan Chen, Abhranil Chandra, Ziyan Jiang, Aaran Arulraj, Kai Wang, Quy Duc Do, Yuansheng Ni, Bohan Lyu, Yaswanth Narsupalli, Rongqi Fan, Zhiheng Lyu, Yuchen Lin, Wenhu Chen
cs.AI
要旨
近年、ビデオ生成技術は大きな進歩を遂げてきた。しかし、自動的なビデオ評価指標の開発は大幅に遅れている。既存の評価指標は、生成されたビデオに対して信頼性の高いスコアを提供することができない。その主な障壁は、大規模な人間による注釈付きデータセットの欠如である。本論文では、11の既存のビデオ生成モデルから生成された37.6Kの合成ビデオに対する人間による多面的なスコアを含む、初の大規模データセットであるVideoFeedbackを公開する。我々は、VideoFeedbackに基づいてMantisScore(Mantisから初期化)をトレーニングし、自動的なビデオ品質評価を可能にする。実験結果によると、MantisScoreと人間の評価との間のスピアマン相関は、VideoFeedback-testで77.1に達し、従来の最良の評価指標を約50ポイント上回る。さらに、EvalCrafter、GenAI-Bench、VBenchなどの他の保留データセットでの結果も、MantisScoreが他の評価指標よりも一貫して人間の評価との相関が高いことを示している。これらの結果から、MantisScoreは人間の評価者にとって優れた代理となり、(1)異なるビデオモデルを評価して進捗を追跡し、(2)Reinforcement Learning with Human Feedback(RLHF)における細かい人間のフィードバックをシミュレートして、現在のビデオ生成モデルを改善することができると信じている。
English
The recent years have witnessed great advances in video generation. However,
the development of automatic video metrics is lagging significantly behind.
None of the existing metric is able to provide reliable scores over generated
videos. The main barrier is the lack of large-scale human-annotated dataset. In
this paper, we release VideoFeedback, the first large-scale dataset containing
human-provided multi-aspect score over 37.6K synthesized videos from 11
existing video generative models. We train MantisScore (initialized from
Mantis) based on VideoFeedback to enable automatic video quality assessment.
Experiments show that the Spearman correlation between MantisScore and humans
can reach 77.1 on VideoFeedback-test, beating the prior best metrics by about
50 points. Further result on other held-out EvalCrafter, GenAI-Bench, and
VBench show that MantisScore has consistently much higher correlation with
human judges than other metrics. Due to these results, we believe MantisScore
can serve as a great proxy for human raters to (1) rate different video models
to track progress (2) simulate fine-grained human feedback in Reinforcement
Learning with Human Feedback (RLHF) to improve current video generation models.Summary
AI-Generated Summary