EvalCrafter: Benchmarking e Valutazione di Modelli di Generazione Video su Grande Scala

Abstract

I modelli generativi per visione e linguaggio hanno conosciuto una crescita esponenziale negli ultimi anni. Per la generazione di video, sono stati rilasciati vari modelli open-source e servizi pubblicamente disponibili per produrre video di alta qualità visiva. Tuttavia, questi metodi spesso utilizzano pochi parametri accademici, come FVD o IS, per valutare le prestazioni. Sosteniamo che sia difficile giudicare i grandi modelli generativi condizionati da metriche semplici, poiché questi modelli sono spesso addestrati su dataset molto ampi con capacità multi-aspetto. Pertanto, proponiamo un nuovo framework e pipeline per valutare in modo esaustivo le prestazioni dei video generati. Per raggiungere questo obiettivo, iniziamo creando una nuova lista di prompt per la generazione di video da testo, analizzando le liste di prompt del mondo reale con l'aiuto di un grande modello linguistico. Successivamente, valutiamo i modelli generativi di video all'avanguardia sui nostri benchmark accuratamente progettati, in termini di qualità visiva, qualità del contenuto, qualità del movimento e allineamento con il testo-caption, utilizzando circa 18 metriche oggettive. Per ottenere la classifica finale dei modelli, adattiamo anche una serie di coefficienti per allineare le metriche oggettive alle opinioni degli utenti. Basandoci sul metodo proposto di allineamento delle opinioni, il nostro punteggio finale mostra una correlazione più alta rispetto alla semplice media delle metriche, dimostrando l'efficacia del metodo di valutazione proposto.

English

The vision and language generative models have been overgrown in recent years. For video generation, various open-sourced models and public-available services are released for generating high-visual quality videos. However, these methods often use a few academic metrics, for example, FVD or IS, to evaluate the performance. We argue that it is hard to judge the large conditional generative models from the simple metrics since these models are often trained on very large datasets with multi-aspect abilities. Thus, we propose a new framework and pipeline to exhaustively evaluate the performance of the generated videos. To achieve this, we first conduct a new prompt list for text-to-video generation by analyzing the real-world prompt list with the help of the large language model. Then, we evaluate the state-of-the-art video generative models on our carefully designed benchmarks, in terms of visual qualities, content qualities, motion qualities, and text-caption alignment with around 18 objective metrics. To obtain the final leaderboard of the models, we also fit a series of coefficients to align the objective metrics to the users' opinions. Based on the proposed opinion alignment method, our final score shows a higher correlation than simply averaging the metrics, showing the effectiveness of the proposed evaluation method.

EvalCrafter: Benchmarking e Valutazione di Modelli di Generazione Video su Grande Scala

EvalCrafter: Benchmarking and Evaluating Large Video Generation Models

Abstract

Support