ETVA: 細粒度な質問生成と回答によるテキストとビデオの整合性評価
ETVA: Evaluation of Text-to-Video Alignment via Fine-grained Question Generation and Answering
March 21, 2025
著者: Kaisi Guan, Zhengfeng Lai, Yuchong Sun, Peng Zhang, Wei Liu, Kieran Liu, Meng Cao, Ruihua Song
cs.AI
要旨
テキストプロンプトと生成された動画間の意味的整合性を正確に評価することは、Text-to-Video(T2V)生成において依然として課題となっている。既存のテキスト-動画整合性評価指標(例:CLIPScore)は、粗粒度のスコアを生成するのみで、細粒度の整合性詳細を提供せず、人間の選好と一致しない。この制約を解決するため、我々はETVA(Evaluation method of Text-to-Video Alignment)を提案する。これは、細粒度の質問生成と回答を通じてテキスト-動画整合性を評価する新しい手法である。まず、マルチエージェントシステムがプロンプトを意味的シーングラフに解析し、原子質問を生成する。次に、知識拡張型の多段階推論フレームワークを設計し、補助的なLLMが関連する常識的知識(例:物理法則)を検索し、その後ビデオLLMが多段階推論メカニズムを通じて生成された質問に回答する。大規模な実験により、ETVAはSpearmanの相関係数58.47を達成し、既存の指標(31.0)と比較して人間の判断とより高い相関を示すことが実証された。また、テキスト-動画整合性評価のために特別に設計された包括的なベンチマークを構築し、10カテゴリにわたる2,000の多様なプロンプトと12,000の原子質問を特徴としている。15の既存テキスト-動画モデルの系統的評価を通じて、それらの主要な能力と限界を特定し、次世代T2V生成への道を開いた。
English
Precisely evaluating semantic alignment between text prompts and generated
videos remains a challenge in Text-to-Video (T2V) Generation. Existing
text-to-video alignment metrics like CLIPScore only generate coarse-grained
scores without fine-grained alignment details, failing to align with human
preference. To address this limitation, we propose ETVA, a novel Evaluation
method of Text-to-Video Alignment via fine-grained question generation and
answering. First, a multi-agent system parses prompts into semantic scene
graphs to generate atomic questions. Then we design a knowledge-augmented
multi-stage reasoning framework for question answering, where an auxiliary LLM
first retrieves relevant common-sense knowledge (e.g., physical laws), and then
video LLM answers the generated questions through a multi-stage reasoning
mechanism. Extensive experiments demonstrate that ETVA achieves a Spearman's
correlation coefficient of 58.47, showing a much higher correlation with human
judgment than existing metrics which attain only 31.0. We also construct a
comprehensive benchmark specifically designed for text-to-video alignment
evaluation, featuring 2k diverse prompts and 12k atomic questions spanning 10
categories. Through a systematic evaluation of 15 existing text-to-video
models, we identify their key capabilities and limitations, paving the way for
next-generation T2V generation.Summary
AI-Generated Summary