EvalCrafter: 대규모 비디오 생성 모델의 벤치마킹 및 평가
EvalCrafter: Benchmarking and Evaluating Large Video Generation Models
October 17, 2023
저자: Yaofang Liu, Xiaodong Cun, Xuebo Liu, Xintao Wang, Yong Zhang, Haoxin Chen, Yang Liu, Tieyong Zeng, Raymond Chan, Ying Shan
cs.AI
초록
최근 비전 및 언어 생성 모델이 급격히 발전했습니다. 비디오 생성 분야에서는 고화질 비디오를 생성하기 위한 다양한 오픈소스 모델과 공개 서비스가 출시되었습니다. 그러나 이러한 방법들은 종종 FVD나 IS와 같은 몇 가지 학문적 지표를 사용하여 성능을 평가합니다. 우리는 이러한 간단한 지표로 대규모 조건부 생성 모델을 판단하기 어렵다고 주장합니다. 왜냐하면 이러한 모델들은 대규모 데이터셋에서 훈련되어 다방면의 능력을 갖추고 있기 때문입니다. 따라서 우리는 생성된 비디오의 성능을 철저히 평가하기 위한 새로운 프레임워크와 파이프라인을 제안합니다. 이를 위해 먼저 대규모 언어 모델의 도움을 받아 실제 세계의 프롬프트 목록을 분석하여 텍스트-투-비디오 생성을 위한 새로운 프롬프트 목록을 구성합니다. 그런 다음, 우리가 신중하게 설계한 벤치마크에서 최신 비디오 생성 모델들을 시각적 품질, 콘텐츠 품질, 모션 품질, 그리고 텍스트-캡션 정렬 등 약 18개의 객관적 지표를 통해 평가합니다. 모델들의 최종 리더보드를 얻기 위해, 우리는 또한 사용자 의견과 객관적 지표를 일치시키기 위해 일련의 계수를 적합시킵니다. 제안된 의견 정렬 방법을 기반으로, 우리의 최종 점수는 단순히 지표를 평균내는 것보다 더 높은 상관관계를 보여, 제안된 평가 방법의 효과성을 입증합니다.
English
The vision and language generative models have been overgrown in recent
years. For video generation, various open-sourced models and public-available
services are released for generating high-visual quality videos. However, these
methods often use a few academic metrics, for example, FVD or IS, to evaluate
the performance. We argue that it is hard to judge the large conditional
generative models from the simple metrics since these models are often trained
on very large datasets with multi-aspect abilities. Thus, we propose a new
framework and pipeline to exhaustively evaluate the performance of the
generated videos. To achieve this, we first conduct a new prompt list for
text-to-video generation by analyzing the real-world prompt list with the help
of the large language model. Then, we evaluate the state-of-the-art video
generative models on our carefully designed benchmarks, in terms of visual
qualities, content qualities, motion qualities, and text-caption alignment with
around 18 objective metrics. To obtain the final leaderboard of the models, we
also fit a series of coefficients to align the objective metrics to the users'
opinions. Based on the proposed opinion alignment method, our final score shows
a higher correlation than simply averaging the metrics, showing the
effectiveness of the proposed evaluation method.