EvalCrafter: Benchmarking e Valutazione di Modelli di Generazione Video su Grande Scala
EvalCrafter: Benchmarking and Evaluating Large Video Generation Models
October 17, 2023
Autori: Yaofang Liu, Xiaodong Cun, Xuebo Liu, Xintao Wang, Yong Zhang, Haoxin Chen, Yang Liu, Tieyong Zeng, Raymond Chan, Ying Shan
cs.AI
Abstract
I modelli generativi per visione e linguaggio hanno conosciuto una crescita esponenziale negli ultimi anni. Per la generazione di video, sono stati rilasciati vari modelli open-source e servizi pubblicamente disponibili per produrre video di alta qualità visiva. Tuttavia, questi metodi spesso utilizzano pochi parametri accademici, come FVD o IS, per valutare le prestazioni. Sosteniamo che sia difficile giudicare i grandi modelli generativi condizionati da metriche semplici, poiché questi modelli sono spesso addestrati su dataset molto ampi con capacità multi-aspetto. Pertanto, proponiamo un nuovo framework e pipeline per valutare in modo esaustivo le prestazioni dei video generati. Per raggiungere questo obiettivo, iniziamo creando una nuova lista di prompt per la generazione di video da testo, analizzando le liste di prompt del mondo reale con l'aiuto di un grande modello linguistico. Successivamente, valutiamo i modelli generativi di video all'avanguardia sui nostri benchmark accuratamente progettati, in termini di qualità visiva, qualità del contenuto, qualità del movimento e allineamento con il testo-caption, utilizzando circa 18 metriche oggettive. Per ottenere la classifica finale dei modelli, adattiamo anche una serie di coefficienti per allineare le metriche oggettive alle opinioni degli utenti. Basandoci sul metodo proposto di allineamento delle opinioni, il nostro punteggio finale mostra una correlazione più alta rispetto alla semplice media delle metriche, dimostrando l'efficacia del metodo di valutazione proposto.
English
The vision and language generative models have been overgrown in recent
years. For video generation, various open-sourced models and public-available
services are released for generating high-visual quality videos. However, these
methods often use a few academic metrics, for example, FVD or IS, to evaluate
the performance. We argue that it is hard to judge the large conditional
generative models from the simple metrics since these models are often trained
on very large datasets with multi-aspect abilities. Thus, we propose a new
framework and pipeline to exhaustively evaluate the performance of the
generated videos. To achieve this, we first conduct a new prompt list for
text-to-video generation by analyzing the real-world prompt list with the help
of the large language model. Then, we evaluate the state-of-the-art video
generative models on our carefully designed benchmarks, in terms of visual
qualities, content qualities, motion qualities, and text-caption alignment with
around 18 objective metrics. To obtain the final leaderboard of the models, we
also fit a series of coefficients to align the objective metrics to the users'
opinions. Based on the proposed opinion alignment method, our final score shows
a higher correlation than simply averaging the metrics, showing the
effectiveness of the proposed evaluation method.