AVGen-Bench: テキストからの音声・映像生成のためのタスク駆動型マルチ粒度評価ベンチマーク

要旨

Text-to-Audio-Video（T2AV）生成は、メディア作成の中心的なインターフェースとして急速に発展しているが、その評価方法は依然として断片的である。既存のベンチマークは、音声とビデオを個別に評価するか、粗い埋め込み類似性に依存するものが大半であり、現実的なプロンプトが要求する細粒度の結合的な正確性を捉えられていない。本研究では、11の実世界カテゴリにわたる高品質なプロンプトを特徴とする、T2AV生成のためのタスク駆動型ベンチマーク「AVGen-Bench」を提案する。包括的評価を支援するため、軽量な専門家モデルとマルチモーダル大規模言語モデル（MLLM）を組み合わせたマルチグラニュラリティ評価フレームワークを提案し、知覚品質から細粒度の意味論的制御性までを評価可能にする。我々の評価により、強力な視聴覚的美観と弱い意味論的信頼性の間に顕著な隔たりが存在すること、具体的にはテキストレンダリング、発話の一貫性、物理的推論における持続的な失敗、および音楽的音高制御の普遍的な破綻が明らかになった。コードとベンチマークリソースは http://aka.ms/avgenbench で公開されている。

English

Text-to-Audio-Video (T2AV) generation is rapidly becoming a core interface for media creation, yet its evaluation remains fragmented. Existing benchmarks largely assess audio and video in isolation or rely on coarse embedding similarity, failing to capture the fine-grained joint correctness required by realistic prompts. We introduce AVGen-Bench, a task-driven benchmark for T2AV generation featuring high-quality prompts across 11 real-world categories. To support comprehensive assessment, we propose a multi-granular evaluation framework that combines lightweight specialist models with Multimodal Large Language Models (MLLMs), enabling evaluation from perceptual quality to fine-grained semantic controllability. Our evaluation reveals a pronounced gap between strong audio-visual aesthetics and weak semantic reliability, including persistent failures in text rendering, speech coherence, physical reasoning, and a universal breakdown in musical pitch control. Code and benchmark resources are available at http://aka.ms/avgenbench.

AVGen-Bench: テキストからの音声・映像生成のためのタスク駆動型マルチ粒度評価ベンチマーク

AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation

要旨

Support