MantisScore : Développement de métriques automatiques pour simuler un retour humain granulaire dans la génération vidéo
MantisScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation
June 21, 2024
Auteurs: Xuan He, Dongfu Jiang, Ge Zhang, Max Ku, Achint Soni, Sherman Siu, Haonan Chen, Abhranil Chandra, Ziyan Jiang, Aaran Arulraj, Kai Wang, Quy Duc Do, Yuansheng Ni, Bohan Lyu, Yaswanth Narsupalli, Rongqi Fan, Zhiheng Lyu, Yuchen Lin, Wenhu Chen
cs.AI
Résumé
Ces dernières années ont été marquées par des avancées significatives dans le domaine de la génération vidéo. Cependant, le développement de métriques automatiques pour évaluer les vidéos est nettement en retard. Aucune des métriques existantes n'est capable de fournir des scores fiables pour les vidéos générées. Le principal obstacle réside dans l'absence d'un jeu de données à grande échelle annoté par des humains. Dans cet article, nous présentons VideoFeedback, le premier jeu de données à grande échelle contenant des scores multi-aspects fournis par des humains pour 37,6K vidéos synthétisées provenant de 11 modèles génératifs vidéo existants. Nous entraînons MantisScore (initialisé à partir de Mantis) sur VideoFeedback afin de permettre une évaluation automatique de la qualité vidéo. Les expériences montrent que la corrélation de Spearman entre MantisScore et les évaluations humaines atteint 77,1 sur VideoFeedback-test, surpassant les meilleures métriques précédentes d'environ 50 points. Des résultats supplémentaires sur d'autres jeux de données tels que EvalCrafter, GenAI-Bench et VBench montrent que MantisScore présente une corrélation bien plus élevée avec les jugements humains que les autres métriques. Grâce à ces résultats, nous pensons que MantisScore peut servir de proxy efficace pour les évaluateurs humains afin de (1) noter différents modèles vidéo pour suivre les progrès et (2) simuler des retours humains granulaires dans l'apprentissage par renforcement avec feedback humain (RLHF) pour améliorer les modèles actuels de génération vidéo.
English
The recent years have witnessed great advances in video generation. However,
the development of automatic video metrics is lagging significantly behind.
None of the existing metric is able to provide reliable scores over generated
videos. The main barrier is the lack of large-scale human-annotated dataset. In
this paper, we release VideoFeedback, the first large-scale dataset containing
human-provided multi-aspect score over 37.6K synthesized videos from 11
existing video generative models. We train MantisScore (initialized from
Mantis) based on VideoFeedback to enable automatic video quality assessment.
Experiments show that the Spearman correlation between MantisScore and humans
can reach 77.1 on VideoFeedback-test, beating the prior best metrics by about
50 points. Further result on other held-out EvalCrafter, GenAI-Bench, and
VBench show that MantisScore has consistently much higher correlation with
human judges than other metrics. Due to these results, we believe MantisScore
can serve as a great proxy for human raters to (1) rate different video models
to track progress (2) simulate fine-grained human feedback in Reinforcement
Learning with Human Feedback (RLHF) to improve current video generation models.Summary
AI-Generated Summary