MantisScore: Construcción de Métricas Automáticas para Simular Retroalimentación Humana Detallada en la Generación de Videos
MantisScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation
June 21, 2024
Autores: Xuan He, Dongfu Jiang, Ge Zhang, Max Ku, Achint Soni, Sherman Siu, Haonan Chen, Abhranil Chandra, Ziyan Jiang, Aaran Arulraj, Kai Wang, Quy Duc Do, Yuansheng Ni, Bohan Lyu, Yaswanth Narsupalli, Rongqi Fan, Zhiheng Lyu, Yuchen Lin, Wenhu Chen
cs.AI
Resumen
Los últimos años han sido testigos de grandes avances en la generación de videos. Sin embargo, el desarrollo de métricas automáticas para videos está significativamente rezagado. Ninguna de las métricas existentes es capaz de proporcionar puntuaciones confiables sobre videos generados. La principal barrera es la falta de un conjunto de datos a gran escala anotado por humanos. En este artículo, presentamos VideoFeedback, el primer conjunto de datos a gran escala que contiene puntuaciones multi-aspecto proporcionadas por humanos sobre 37.6K videos sintetizados a partir de 11 modelos generativos de video existentes. Entrenamos MantisScore (inicializado a partir de Mantis) basado en VideoFeedback para permitir la evaluación automática de la calidad de los videos. Los experimentos muestran que la correlación de Spearman entre MantisScore y los humanos puede alcanzar 77.1 en VideoFeedback-test, superando a las mejores métricas anteriores en aproximadamente 50 puntos. Resultados adicionales en EvalCrafter, GenAI-Bench y VBench, conjuntos de datos retenidos, muestran que MantisScore tiene consistentemente una correlación mucho mayor con los juicios humanos que otras métricas. Debido a estos resultados, creemos que MantisScore puede servir como un excelente sustituto de los evaluadores humanos para (1) calificar diferentes modelos de video para seguir el progreso y (2) simular retroalimentación humana detallada en Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) para mejorar los modelos actuales de generación de videos.
English
The recent years have witnessed great advances in video generation. However,
the development of automatic video metrics is lagging significantly behind.
None of the existing metric is able to provide reliable scores over generated
videos. The main barrier is the lack of large-scale human-annotated dataset. In
this paper, we release VideoFeedback, the first large-scale dataset containing
human-provided multi-aspect score over 37.6K synthesized videos from 11
existing video generative models. We train MantisScore (initialized from
Mantis) based on VideoFeedback to enable automatic video quality assessment.
Experiments show that the Spearman correlation between MantisScore and humans
can reach 77.1 on VideoFeedback-test, beating the prior best metrics by about
50 points. Further result on other held-out EvalCrafter, GenAI-Bench, and
VBench show that MantisScore has consistently much higher correlation with
human judges than other metrics. Due to these results, we believe MantisScore
can serve as a great proxy for human raters to (1) rate different video models
to track progress (2) simulate fine-grained human feedback in Reinforcement
Learning with Human Feedback (RLHF) to improve current video generation models.Summary
AI-Generated Summary