MantisScore: Costruire Metriche Automatiche per Simulare Feedback Umano Granulare nella Generazione di Video
MantisScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation
June 21, 2024
Autori: Xuan He, Dongfu Jiang, Ge Zhang, Max Ku, Achint Soni, Sherman Siu, Haonan Chen, Abhranil Chandra, Ziyan Jiang, Aaran Arulraj, Kai Wang, Quy Duc Do, Yuansheng Ni, Bohan Lyu, Yaswanth Narsupalli, Rongqi Fan, Zhiheng Lyu, Yuchen Lin, Wenhu Chen
cs.AI
Abstract
Gli ultimi anni hanno assistito a grandi progressi nella generazione di video. Tuttavia, lo sviluppo di metriche automatiche per i video è significativamente in ritardo. Nessuna delle metriche esistenti è in grado di fornire punteggi affidabili sui video generati. La principale barriera è la mancanza di un dataset su larga scala annotato da esseri umani. In questo articolo, presentiamo VideoFeedback, il primo dataset su larga scala contenente punteggi multi-aspetto forniti da esseri umani su 37.6K video sintetizzati da 11 modelli generativi di video esistenti. Addestriamo MantisScore (inizializzato da Mantis) basandoci su VideoFeedback per abilitare la valutazione automatica della qualità dei video. Gli esperimenti mostrano che la correlazione di Spearman tra MantisScore e gli esseri umani può raggiungere 77.1 su VideoFeedback-test, superando le migliori metriche precedenti di circa 50 punti. Ulteriori risultati su altri dataset come EvalCrafter, GenAI-Bench e VBench dimostrano che MantisScore ha una correlazione molto più alta con i giudizi umani rispetto ad altre metriche. Grazie a questi risultati, crediamo che MantisScore possa servire come un ottimo sostituto dei valutatori umani per (1) valutare diversi modelli di video per tracciare i progressi (2) simulare feedback umani dettagliati nel Reinforcement Learning with Human Feedback (RLHF) per migliorare i modelli attuali di generazione di video.
English
The recent years have witnessed great advances in video generation. However,
the development of automatic video metrics is lagging significantly behind.
None of the existing metric is able to provide reliable scores over generated
videos. The main barrier is the lack of large-scale human-annotated dataset. In
this paper, we release VideoFeedback, the first large-scale dataset containing
human-provided multi-aspect score over 37.6K synthesized videos from 11
existing video generative models. We train MantisScore (initialized from
Mantis) based on VideoFeedback to enable automatic video quality assessment.
Experiments show that the Spearman correlation between MantisScore and humans
can reach 77.1 on VideoFeedback-test, beating the prior best metrics by about
50 points. Further result on other held-out EvalCrafter, GenAI-Bench, and
VBench show that MantisScore has consistently much higher correlation with
human judges than other metrics. Due to these results, we believe MantisScore
can serve as a great proxy for human raters to (1) rate different video models
to track progress (2) simulate fine-grained human feedback in Reinforcement
Learning with Human Feedback (RLHF) to improve current video generation models.