ChatPaper.aiChatPaper

MantisScore: Construção de Métricas Automáticas para Simular Feedback Humano Detalhado na Geração de Vídeos

MantisScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation

June 21, 2024
Autores: Xuan He, Dongfu Jiang, Ge Zhang, Max Ku, Achint Soni, Sherman Siu, Haonan Chen, Abhranil Chandra, Ziyan Jiang, Aaran Arulraj, Kai Wang, Quy Duc Do, Yuansheng Ni, Bohan Lyu, Yaswanth Narsupalli, Rongqi Fan, Zhiheng Lyu, Yuchen Lin, Wenhu Chen
cs.AI

Resumo

Os últimos anos testemunharam grandes avanços na geração de vídeos. No entanto, o desenvolvimento de métricas automáticas de vídeo está significativamente atrasado. Nenhuma das métricas existentes é capaz de fornecer pontuações confiáveis para vídeos gerados. A principal barreira é a falta de um conjunto de dados grande e anotado por humanos em larga escala. Neste artigo, lançamos o VideoFeedback, o primeiro conjunto de dados em larga escala contendo pontuações multi-aspecto fornecidas por humanos sobre 37,6 mil vídeos sintetizados a partir de 11 modelos geradores de vídeo existentes. Treinamos o MantisScore (inicializado a partir do Mantis) com base no VideoFeedback para possibilitar a avaliação automática da qualidade do vídeo. Experimentos mostram que a correlação de Spearman entre o MantisScore e os humanos pode atingir 77,1 no VideoFeedback-test, superando as métricas anteriores em cerca de 50 pontos. Resultados adicionais em outros conjuntos de dados de avaliação, como EvalCrafter, GenAI-Bench e VBench, mostram que o MantisScore tem consistentemente uma correlação muito maior com os juízes humanos do que outras métricas. Devido a esses resultados, acreditamos que o MantisScore pode servir como um ótimo proxy para avaliadores humanos (1) classificarem diferentes modelos de vídeo para acompanhar o progresso e (2) simularem feedback humano detalhado no Aprendizado por Reforço com Feedback Humano (RLHF) para melhorar os modelos atuais de geração de vídeo.
English
The recent years have witnessed great advances in video generation. However, the development of automatic video metrics is lagging significantly behind. None of the existing metric is able to provide reliable scores over generated videos. The main barrier is the lack of large-scale human-annotated dataset. In this paper, we release VideoFeedback, the first large-scale dataset containing human-provided multi-aspect score over 37.6K synthesized videos from 11 existing video generative models. We train MantisScore (initialized from Mantis) based on VideoFeedback to enable automatic video quality assessment. Experiments show that the Spearman correlation between MantisScore and humans can reach 77.1 on VideoFeedback-test, beating the prior best metrics by about 50 points. Further result on other held-out EvalCrafter, GenAI-Bench, and VBench show that MantisScore has consistently much higher correlation with human judges than other metrics. Due to these results, we believe MantisScore can serve as a great proxy for human raters to (1) rate different video models to track progress (2) simulate fine-grained human feedback in Reinforcement Learning with Human Feedback (RLHF) to improve current video generation models.
PDF181November 29, 2024