ChatPaper.aiChatPaper

VABench: Комплексный эталонный тест для генерации аудио-видео контента

VABench: A Comprehensive Benchmark for Audio-Video Generation

December 10, 2025
Авторы: Daili Hua, Xizhi Wang, Bohan Zeng, Xinyi Huang, Hao Liang, Junbo Niu, Xinlong Chen, Quanqing Xu, Wentao Zhang
cs.AI

Аннотация

Последние достижения в области генерации видео впечатляют: модели теперь способны создавать визуально привлекательные видео с синхронизированным звуком. Хотя существующие бенчмарки для генерации видео предлагают всесторонние метрики для оценки визуального качества, в них отсутствуют убедительные методы оценки для аудио-видео генерации, особенно для моделей, предназначенных для создания синхронизированных аудио-видео выходных данных. Чтобы восполнить этот пробел, мы представляем VABench — всеобъемлющую и многомерную систему бенчмарков, разработанную для систематической оценки возможностей синхронной аудио-видео генерации. VABench охватывает три основных типа задач: генерация аудио-видео по тексту (T2AV), генерация аудио-видео по изображению (I2AV) и генерация стерео аудио-видео. Кроме того, в рамках системы созданы два основных оценочных модуля, покрывающих 15 измерений. Эти измерения специально оценивают парное сходство (текст-видео, текст-аудио, видео-аудио), синхронизацию аудио и видео, соответствие артикуляции речи, а также тщательно отобранные пары вопрос-ответ (QA) для аудио и видео, среди других аспектов. Более того, VABench охватывает семь основных содержательных категорий: животные, звуки, производимые человеком, музыка, звуки окружающей среды, синхронные физические звуки, сложные сцены и виртуальные миры. Мы предоставляем систематический анализ и визуализацию результатов оценки, стремясь установить новый стандарт для оценки моделей генерации видео с функциями синхронного звука и способствовать всестороннему прогрессу в данной области.
English
Recent advances in video generation have been remarkable, enabling models to produce visually compelling videos with synchronized audio. While existing video generation benchmarks provide comprehensive metrics for visual quality, they lack convincing evaluations for audio-video generation, especially for models aiming to generate synchronized audio-video outputs. To address this gap, we introduce VABench, a comprehensive and multi-dimensional benchmark framework designed to systematically evaluate the capabilities of synchronous audio-video generation. VABench encompasses three primary task types: text-to-audio-video (T2AV), image-to-audio-video (I2AV), and stereo audio-video generation. It further establishes two major evaluation modules covering 15 dimensions. These dimensions specifically assess pairwise similarities (text-video, text-audio, video-audio), audio-video synchronization, lip-speech consistency, and carefully curated audio and video question-answering (QA) pairs, among others. Furthermore, VABench covers seven major content categories: animals, human sounds, music, environmental sounds, synchronous physical sounds, complex scenes, and virtual worlds. We provide a systematic analysis and visualization of the evaluation results, aiming to establish a new standard for assessing video generation models with synchronous audio capabilities and to promote the comprehensive advancement of the field.
PDF72December 19, 2025