MantisScore: Создание автоматических метрик для имитации детальной человеческой обратной связи при генерации видео.
MantisScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation
June 21, 2024
Авторы: Xuan He, Dongfu Jiang, Ge Zhang, Max Ku, Achint Soni, Sherman Siu, Haonan Chen, Abhranil Chandra, Ziyan Jiang, Aaran Arulraj, Kai Wang, Quy Duc Do, Yuansheng Ni, Bohan Lyu, Yaswanth Narsupalli, Rongqi Fan, Zhiheng Lyu, Yuchen Lin, Wenhu Chen
cs.AI
Аннотация
Последние годы принесли значительные успехи в области генерации видео. Однако развитие автоматических видео-метрик значительно отстает. Ни одна из существующих метрик не способна обеспечить надежные оценки для созданных видеороликов. Основным барьером является отсутствие крупномасштабного набора данных с аннотациями от людей. В данной статье мы представляем VideoFeedback - первый крупномасштабный набор данных, содержащий многопараметровые оценки от людей для 37,6 тыс. синтезированных видеороликов от 11 существующих моделей генерации видео. Мы обучаем MantisScore (инициализированный из Mantis) на основе VideoFeedback для автоматической оценки качества видео. Эксперименты показывают, что коэффициент корреляции Спирмена между MantisScore и людьми может достигать 77,1 на тестовом наборе VideoFeedback, превосходя предыдущие лучшие метрики примерно на 50 пунктов. Дополнительные результаты на других тестовых наборах EvalCrafter, GenAI-Bench и VBench показывают, что MantisScore имеет значительно более высокую корреляцию с оценками людей, чем другие метрики. Исходя из этих результатов, мы считаем, что MantisScore может служить отличным заменителем для оценки различных видео-моделей для отслеживания прогресса и для моделирования детальной обратной связи от людей в Обучении с подкреплением с обратной связью от людей (RLHF) для улучшения текущих моделей генерации видео.
English
The recent years have witnessed great advances in video generation. However,
the development of automatic video metrics is lagging significantly behind.
None of the existing metric is able to provide reliable scores over generated
videos. The main barrier is the lack of large-scale human-annotated dataset. In
this paper, we release VideoFeedback, the first large-scale dataset containing
human-provided multi-aspect score over 37.6K synthesized videos from 11
existing video generative models. We train MantisScore (initialized from
Mantis) based on VideoFeedback to enable automatic video quality assessment.
Experiments show that the Spearman correlation between MantisScore and humans
can reach 77.1 on VideoFeedback-test, beating the prior best metrics by about
50 points. Further result on other held-out EvalCrafter, GenAI-Bench, and
VBench show that MantisScore has consistently much higher correlation with
human judges than other metrics. Due to these results, we believe MantisScore
can serve as a great proxy for human raters to (1) rate different video models
to track progress (2) simulate fine-grained human feedback in Reinforcement
Learning with Human Feedback (RLHF) to improve current video generation models.Summary
AI-Generated Summary