ChatPaper.aiChatPaper

MantisScore: Aufbau automatischer Metriken zur Simulation feingranulierten menschlichen Feedbacks für die Videogenerierung.

MantisScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation

June 21, 2024
Autoren: Xuan He, Dongfu Jiang, Ge Zhang, Max Ku, Achint Soni, Sherman Siu, Haonan Chen, Abhranil Chandra, Ziyan Jiang, Aaran Arulraj, Kai Wang, Quy Duc Do, Yuansheng Ni, Bohan Lyu, Yaswanth Narsupalli, Rongqi Fan, Zhiheng Lyu, Yuchen Lin, Wenhu Chen
cs.AI

Zusammenfassung

In den letzten Jahren haben wir große Fortschritte bei der Videogenerierung erlebt. Allerdings hinkt die Entwicklung automatischer Videometriken erheblich hinterher. Keine der bestehenden Metriken ist in der Lage, zuverlässige Bewertungen über generierte Videos bereitzustellen. Das Hauptproblem ist der Mangel an einem umfangreichen, von Menschen annotierten Datensatz. In diesem Artikel veröffentlichen wir VideoFeedback, den ersten umfangreichen Datensatz, der von Menschen bereitgestellte Mehraspektbewertungen über 37,6K synthetisierte Videos von 11 bestehenden Videogenerierungsmodellen enthält. Wir trainieren MantisScore (initialisiert von Mantis) basierend auf VideoFeedback, um eine automatische Bewertung der Videoqualität zu ermöglichen. Experimente zeigen, dass die Spearman-Korrelation zwischen MantisScore und Menschen auf VideoFeedback-Test 77,1 erreichen kann und damit die bisher besten Metriken um etwa 50 Punkte übertrifft. Weitere Ergebnisse zu anderen zurückgehaltenen Datensätzen wie EvalCrafter, GenAI-Bench und VBench zeigen, dass MantisScore eine durchweg viel höhere Korrelation mit menschlichen Richtern aufweist als andere Metriken. Aufgrund dieser Ergebnisse glauben wir, dass MantisScore als ein großartiger Proxy für menschliche Bewerter dienen kann, um (1) verschiedene Videomodelle zu bewerten, um den Fortschritt zu verfolgen, und (2) feingliedertes menschliches Feedback in Reinforcement Learning mit menschlichem Feedback (RLHF) zu simulieren, um aktuelle Videogenerierungsmodelle zu verbessern.
English
The recent years have witnessed great advances in video generation. However, the development of automatic video metrics is lagging significantly behind. None of the existing metric is able to provide reliable scores over generated videos. The main barrier is the lack of large-scale human-annotated dataset. In this paper, we release VideoFeedback, the first large-scale dataset containing human-provided multi-aspect score over 37.6K synthesized videos from 11 existing video generative models. We train MantisScore (initialized from Mantis) based on VideoFeedback to enable automatic video quality assessment. Experiments show that the Spearman correlation between MantisScore and humans can reach 77.1 on VideoFeedback-test, beating the prior best metrics by about 50 points. Further result on other held-out EvalCrafter, GenAI-Bench, and VBench show that MantisScore has consistently much higher correlation with human judges than other metrics. Due to these results, we believe MantisScore can serve as a great proxy for human raters to (1) rate different video models to track progress (2) simulate fine-grained human feedback in Reinforcement Learning with Human Feedback (RLHF) to improve current video generation models.

Summary

AI-Generated Summary

PDF171November 29, 2024