ChatPaper.aiChatPaper

MantisScore: Het Ontwikkelen van Automatische Metrieken om Gedetailleerde Menselijke Feedback te Simuleren voor Videogeneratie

MantisScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation

June 21, 2024
Auteurs: Xuan He, Dongfu Jiang, Ge Zhang, Max Ku, Achint Soni, Sherman Siu, Haonan Chen, Abhranil Chandra, Ziyan Jiang, Aaran Arulraj, Kai Wang, Quy Duc Do, Yuansheng Ni, Bohan Lyu, Yaswanth Narsupalli, Rongqi Fan, Zhiheng Lyu, Yuchen Lin, Wenhu Chen
cs.AI

Samenvatting

De afgelopen jaren hebben grote vooruitgang geboekt op het gebied van videogeneratie. De ontwikkeling van automatische videometrieken blijft echter aanzienlijk achter. Geen van de bestaande metrieken is in staat betrouwbare scores te geven voor gegenereerde video's. De belangrijkste belemmering is het ontbreken van een grootschalige dataset met menselijke annotaties. In dit artikel introduceren we VideoFeedback, de eerste grootschalige dataset die door mensen verstrekte scores op meerdere aspecten bevat voor 37.6K gesynthetiseerde video's van 11 bestaande videogeneratieve modellen. We trainen MantisScore (geïnitialiseerd vanuit Mantis) op basis van VideoFeedback om automatische videokwaliteitsbeoordeling mogelijk te maken. Experimenten tonen aan dat de Spearman-correlatie tussen MantisScore en menselijke beoordelaars 77.1 kan bereiken op VideoFeedback-test, wat de vorige beste metrieken met ongeveer 50 punten verslaat. Verdere resultaten op andere datasets zoals EvalCrafter, GenAI-Bench en VBench laten zien dat MantisScore consistent een veel hogere correlatie heeft met menselijke beoordelaars dan andere metrieken. Vanwege deze resultaten geloven we dat MantisScore een uitstekende vervanging kan zijn voor menselijke beoordelaars om (1) verschillende videomodellen te beoordelen en vooruitgang te volgen, en (2) gedetailleerde menselijke feedback te simuleren in Reinforcement Learning with Human Feedback (RLHF) om huidige videogeneratiemodellen te verbeteren.
English
The recent years have witnessed great advances in video generation. However, the development of automatic video metrics is lagging significantly behind. None of the existing metric is able to provide reliable scores over generated videos. The main barrier is the lack of large-scale human-annotated dataset. In this paper, we release VideoFeedback, the first large-scale dataset containing human-provided multi-aspect score over 37.6K synthesized videos from 11 existing video generative models. We train MantisScore (initialized from Mantis) based on VideoFeedback to enable automatic video quality assessment. Experiments show that the Spearman correlation between MantisScore and humans can reach 77.1 on VideoFeedback-test, beating the prior best metrics by about 50 points. Further result on other held-out EvalCrafter, GenAI-Bench, and VBench show that MantisScore has consistently much higher correlation with human judges than other metrics. Due to these results, we believe MantisScore can serve as a great proxy for human raters to (1) rate different video models to track progress (2) simulate fine-grained human feedback in Reinforcement Learning with Human Feedback (RLHF) to improve current video generation models.
PDF181November 29, 2024