ChatPaper.aiChatPaper

VABench: オーディオビデオ生成の包括的ベンチマーク

VABench: A Comprehensive Benchmark for Audio-Video Generation

December 10, 2025
著者: Daili Hua, Xizhi Wang, Bohan Zeng, Xinyi Huang, Hao Liang, Junbo Niu, Xinlong Chen, Quanqing Xu, Wentao Zhang
cs.AI

要旨

近年、映像生成技術は目覚ましい進歩を遂げ、視覚的に魅力的な映像と同期した音声を生成するモデルが可能となった。既存の映像生成ベンチマークは視覚的品質に関する包括的な評価指標を提供するが、特に同期した音声-映像出力を生成するモデルに対する説得力のある評価が欠如している。この課題を解決するため、我々は同期音声-映像生成の能力を体系的に評価するための多次元的なベンチマークフレームワーク「VABench」を提案する。VABenchは、テキストから音声-映像への生成(T2AV)、画像から音声-映像への生成(I2AV)、ステレオ音声-映像生成という3つの主要タスクを包含する。さらに、15の次元をカバーする2つの主要評価モジュールを構築した。これらの次元は、ペアワイズ類似性(テキスト-映像、テキスト-音声、映像-音声)、音声-映像同期、唇の動きと音声の一貫性、厳選された音声・映像質問応答(QA)ペアなどを重点的に評価する。さらにVABenchは、動物、人間の音声、音楽、環境音、物理的同期音、複雑な場面、仮想世界という7つの主要コンテンツカテゴリを網羅する。評価結果の体系的分析と可視化を提供し、同期音声機能を備えた映像生成モデルの評価における新たな標準を確立し、本分野の包括的な発展を促進することを目指す。
English
Recent advances in video generation have been remarkable, enabling models to produce visually compelling videos with synchronized audio. While existing video generation benchmarks provide comprehensive metrics for visual quality, they lack convincing evaluations for audio-video generation, especially for models aiming to generate synchronized audio-video outputs. To address this gap, we introduce VABench, a comprehensive and multi-dimensional benchmark framework designed to systematically evaluate the capabilities of synchronous audio-video generation. VABench encompasses three primary task types: text-to-audio-video (T2AV), image-to-audio-video (I2AV), and stereo audio-video generation. It further establishes two major evaluation modules covering 15 dimensions. These dimensions specifically assess pairwise similarities (text-video, text-audio, video-audio), audio-video synchronization, lip-speech consistency, and carefully curated audio and video question-answering (QA) pairs, among others. Furthermore, VABench covers seven major content categories: animals, human sounds, music, environmental sounds, synchronous physical sounds, complex scenes, and virtual worlds. We provide a systematic analysis and visualization of the evaluation results, aiming to establish a new standard for assessing video generation models with synchronous audio capabilities and to promote the comprehensive advancement of the field.
PDF72December 19, 2025