ChronoMagic-Bench: 텍스트-타임랩스 비디오 생성의 변형적 평가를 위한 벤치마크
ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation
June 26, 2024
저자: Shenghai Yuan, Jinfa Huang, Yongqi Xu, Yaoyang Liu, Shaofeng Zhang, Yujun Shi, Ruijie Zhu, Xinhua Cheng, Jiebo Luo, Li Yuan
cs.AI
초록
우리는 텍스트-투-비디오(T2V) 생성 모델(예: Sora 및 Lumiere)의 타임랩스 비디오 생성에서의 시간적 및 변형 능력을 평가하기 위해 새로운 벤치마크인 ChronoMagic-Bench를 제안합니다. 기존 벤치마크가 생성된 비디오의 시각적 품질과 텍스트 관련성에 초점을 맞추는 반면, ChronoMagic-Bench는 모델이 상당한 변형 폭과 시간적 일관성을 가진 타임랩스 비디오를 생성하는 능력에 중점을 둡니다. 이 벤치마크는 T2V 모델의 물리학, 생물학, 화학 능력을 자유 형식의 텍스트 쿼리로 탐구합니다. 이를 위해 ChronoMagic-Bench는 1,649개의 프롬프트와 실제 비디오를 참조 자료로 도입하며, 이를 생물학적, 인간 창작, 기상학적, 물리적 현상의 네 가지 주요 타임랩스 비디오 유형으로 분류하고, 이를 75개의 하위 범주로 세분화합니다. 이 분류는 모델이 다양한 복잡한 변환을 처리하는 능력을 포괄적으로 평가합니다. 인간의 선호도를 벤치마크와 정확하게 일치시키기 위해, 우리는 비디오의 변형 속성과 시간적 일관성을 평가하기 위해 두 가지 새로운 자동 메트릭인 MTScore와 CHScore를 도입합니다. MTScore는 시간에 따른 변화의 정도를 반영하는 변형 폭을 측정하고, CHScore는 생성된 비디오가 논리적 진행과 연속성을 유지하는지 평가합니다. ChronoMagic-Bench를 기반으로, 우리는 10개의 대표적인 T2V 모델에 대한 포괄적인 수동 평가를 수행하여, 다양한 프롬프트 범주에서의 강점과 약점을 밝히고, 비디오 생성 연구의 현재 격차를 해결하는 철저한 평가 프레임워크를 제공합니다. 또한, 우리는 460k개의 고품질 720p 타임랩스 비디오와 상세한 캡션 쌍을 포함한 대규모 ChronoMagic-Pro 데이터셋을 생성하여, 높은 물리적 관련성과 큰 변형 폭을 보장합니다.
English
We propose a novel text-to-video (T2V) generation benchmark,
ChronoMagic-Bench, to evaluate the temporal and metamorphic capabilities of the
T2V models (e.g. Sora and Lumiere) in time-lapse video generation. In contrast
to existing benchmarks that focus on the visual quality and textual relevance
of generated videos, ChronoMagic-Bench focuses on the model's ability to
generate time-lapse videos with significant metamorphic amplitude and temporal
coherence. The benchmark probes T2V models for their physics, biology, and
chemistry capabilities, in a free-form text query. For these purposes,
ChronoMagic-Bench introduces 1,649 prompts and real-world videos as references,
categorized into four major types of time-lapse videos: biological,
human-created, meteorological, and physical phenomena, which are further
divided into 75 subcategories. This categorization comprehensively evaluates
the model's capacity to handle diverse and complex transformations. To
accurately align human preference with the benchmark, we introduce two new
automatic metrics, MTScore and CHScore, to evaluate the videos' metamorphic
attributes and temporal coherence. MTScore measures the metamorphic amplitude,
reflecting the degree of change over time, while CHScore assesses the temporal
coherence, ensuring the generated videos maintain logical progression and
continuity. Based on the ChronoMagic-Bench, we conduct comprehensive manual
evaluations of ten representative T2V models, revealing their strengths and
weaknesses across different categories of prompts, and providing a thorough
evaluation framework that addresses current gaps in video generation research.
Moreover, we create a large-scale ChronoMagic-Pro dataset, containing 460k
high-quality pairs of 720p time-lapse videos and detailed captions ensuring
high physical pertinence and large metamorphic amplitude.Summary
AI-Generated Summary