ChatPaper.aiChatPaper

MantisScore: 비디오 생성을 위한 세분화된 인간 피드백을 시뮬레이션하는 자동 평가 지표 구축

MantisScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation

June 21, 2024
저자: Xuan He, Dongfu Jiang, Ge Zhang, Max Ku, Achint Soni, Sherman Siu, Haonan Chen, Abhranil Chandra, Ziyan Jiang, Aaran Arulraj, Kai Wang, Quy Duc Do, Yuansheng Ni, Bohan Lyu, Yaswanth Narsupalli, Rongqi Fan, Zhiheng Lyu, Yuchen Lin, Wenhu Chen
cs.AI

초록

최근 몇 년간 비디오 생성 기술은 큰 발전을 이루었습니다. 그러나 자동 비디오 평가 지표의 개발은 상당히 뒤처져 있습니다. 기존의 어떤 지표도 생성된 비디오에 대해 신뢰할 만한 점수를 제공하지 못하고 있습니다. 주요 장벽은 대규모 인간 주석 데이터셋의 부재입니다. 본 논문에서는 11개의 기존 비디오 생성 모델에서 생성된 37.6K개의 합성 비디오에 대해 인간이 제공한 다중 측면 점수를 포함한 첫 번째 대규모 데이터셋인 VideoFeedback를 공개합니다. 우리는 VideoFeedback을 기반으로 Mantis에서 초기화된 MantisScore를 학습시켜 자동 비디오 품질 평가를 가능하게 합니다. 실험 결과, MantisScore와 인간 평가 간의 스피어만 상관관계는 VideoFeedback-test에서 77.1에 달하며, 이는 기존 최고 지표보다 약 50점 높은 수치입니다. EvalCrafter, GenAI-Bench, VBench 등 다른 보류 데이터셋에 대한 추가 결과에서도 MantisScore가 다른 지표보다 인간 평가자와 훨씬 더 높은 상관관계를 보이는 것으로 나타났습니다. 이러한 결과를 바탕으로, 우리는 MantisScore가 인간 평가자의 훌륭한 대리자 역할을 할 수 있다고 믿습니다. 이를 통해 (1) 다양한 비디오 모델을 평가하여 진행 상황을 추적하고, (2) Reinforcement Learning with Human Feedback(RLHF)에서 세분화된 인간 피드백을 시뮬레이션하여 현재의 비디오 생성 모델을 개선할 수 있습니다.
English
The recent years have witnessed great advances in video generation. However, the development of automatic video metrics is lagging significantly behind. None of the existing metric is able to provide reliable scores over generated videos. The main barrier is the lack of large-scale human-annotated dataset. In this paper, we release VideoFeedback, the first large-scale dataset containing human-provided multi-aspect score over 37.6K synthesized videos from 11 existing video generative models. We train MantisScore (initialized from Mantis) based on VideoFeedback to enable automatic video quality assessment. Experiments show that the Spearman correlation between MantisScore and humans can reach 77.1 on VideoFeedback-test, beating the prior best metrics by about 50 points. Further result on other held-out EvalCrafter, GenAI-Bench, and VBench show that MantisScore has consistently much higher correlation with human judges than other metrics. Due to these results, we believe MantisScore can serve as a great proxy for human raters to (1) rate different video models to track progress (2) simulate fine-grained human feedback in Reinforcement Learning with Human Feedback (RLHF) to improve current video generation models.

Summary

AI-Generated Summary

PDF171November 29, 2024