ChatPaper.aiChatPaper

ChronoMagic-Bench:テキストからタイムラプス動画生成のメタモルフィック評価のためのベンチマーク

ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation

June 26, 2024
著者: Shenghai Yuan, Jinfa Huang, Yongqi Xu, Yaoyang Liu, Shaofeng Zhang, Yujun Shi, Ruijie Zhu, Xinhua Cheng, Jiebo Luo, Li Yuan
cs.AI

要旨

我々は、テキストからビデオ(T2V)生成モデル(例:SoraやLumiere)のタイムラプスビデオ生成における時間的および変容的機能を評価するための新しいベンチマーク、ChronoMagic-Benchを提案します。既存のベンチマークが生成ビデオの視覚的品質とテキスト的関連性に焦点を当てているのに対し、ChronoMagic-Benchは、モデルが大幅な変容的振幅と時間的整合性を持つタイムラプスビデオを生成する能力に焦点を当てています。このベンチマークは、自由形式のテキストクエリにおいて、T2Vモデルの物理学、生物学、化学の能力を探ります。これらの目的のために、ChronoMagic-Benchは1,649のプロンプトと実世界のビデオを参照として導入し、生物学的、人間が作り出した、気象学的、物理的現象の4つの主要なタイプのタイムラプスビデオに分類し、さらに75のサブカテゴリに分けます。この分類は、モデルが多様で複雑な変容を処理する能力を包括的に評価します。人間の好みをベンチマークに正確に合わせるために、ビデオの変容的属性と時間的整合性を評価するための2つの新しい自動メトリック、MTScoreとCHScoreを導入します。MTScoreは変容的振幅を測定し、時間の経過に伴う変化の程度を反映し、CHScoreは時間的整合性を評価し、生成されたビデオが論理的な進行と連続性を維持することを保証します。ChronoMagic-Benchに基づいて、我々は10の代表的なT2Vモデルの包括的な手動評価を行い、異なるカテゴリのプロンプトにおけるそれらの強みと弱みを明らかにし、ビデオ生成研究における現在のギャップに対処する徹底的な評価フレームワークを提供します。さらに、720pの高品質なタイムラプスビデオと詳細なキャプションを含む460kの大規模なChronoMagic-Proデータセットを作成し、高い物理的関連性と大きな変容的振幅を確保します。
English
We propose a novel text-to-video (T2V) generation benchmark, ChronoMagic-Bench, to evaluate the temporal and metamorphic capabilities of the T2V models (e.g. Sora and Lumiere) in time-lapse video generation. In contrast to existing benchmarks that focus on the visual quality and textual relevance of generated videos, ChronoMagic-Bench focuses on the model's ability to generate time-lapse videos with significant metamorphic amplitude and temporal coherence. The benchmark probes T2V models for their physics, biology, and chemistry capabilities, in a free-form text query. For these purposes, ChronoMagic-Bench introduces 1,649 prompts and real-world videos as references, categorized into four major types of time-lapse videos: biological, human-created, meteorological, and physical phenomena, which are further divided into 75 subcategories. This categorization comprehensively evaluates the model's capacity to handle diverse and complex transformations. To accurately align human preference with the benchmark, we introduce two new automatic metrics, MTScore and CHScore, to evaluate the videos' metamorphic attributes and temporal coherence. MTScore measures the metamorphic amplitude, reflecting the degree of change over time, while CHScore assesses the temporal coherence, ensuring the generated videos maintain logical progression and continuity. Based on the ChronoMagic-Bench, we conduct comprehensive manual evaluations of ten representative T2V models, revealing their strengths and weaknesses across different categories of prompts, and providing a thorough evaluation framework that addresses current gaps in video generation research. Moreover, we create a large-scale ChronoMagic-Pro dataset, containing 460k high-quality pairs of 720p time-lapse videos and detailed captions ensuring high physical pertinence and large metamorphic amplitude.

Summary

AI-Generated Summary

PDF213November 29, 2024