AVGen-Bench: 텍스트-오디오-비디오 생성을 위한 다중 단위 평가를 위한 과제 중심 벤치마크
AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation
April 9, 2026
저자: Ziwei Zhou, Zeyuan Lai, Rui Wang, Yifan Yang, Zhen Xing, Yuqing Yang, Qi Dai, Lili Qiu, Chong Luo
cs.AI
초록
텍스트-오디오-비디오(T2AV) 생성 기술은 미디어 제작의 핵심 인터페이스로 빠르게 자리 잡고 있지만, 그 평가 방식은 여전히 파편화되어 있습니다. 기존 벤치마크는 대부분 오디오와 비디오를 각각 독립적으로 평가하거나, 임베딩 유사성과 같은 거친 지표에 의존하여 현실적인 프롬프트가 요구하는 세밀한 수준의 결합 정확성을 포착하지 못합니다. 본 논문에서는 11개 실생활 범주에 걸친 고품질 프롬프트로 구성된 T2AV 생성을 위한 과제 중심 벤치마크인 AVGen-Bench를 소개합니다. 포괄적인 평가를 지원하기 위해 경량화된 특화 모델과 멀티모달 대규모 언어 모델(MLLM)을 결합한 다중 세분성 평가 프레임워크를 제안하며, 이를 통해 지각적 품질부터 세밀한 의미론적 제어 가능성에 이르기까지 평가가 가능합니다. 우리의 평가는 강력한 오디오-비시각적 미학과 약한 의미론적 신뢰도 사이에 현저한 격차가 있음을 보여주며, 여기에는 텍스트 렌더링, 음성 일관성, 물리적 추론에서의 지속적인 실패와 음정 제어의 보편적 붕괴가 포함됩니다. 코드 및 벤치마크 리소스는 http://aka.ms/avgenbench에서 확인할 수 있습니다.
English
Text-to-Audio-Video (T2AV) generation is rapidly becoming a core interface for media creation, yet its evaluation remains fragmented. Existing benchmarks largely assess audio and video in isolation or rely on coarse embedding similarity, failing to capture the fine-grained joint correctness required by realistic prompts. We introduce AVGen-Bench, a task-driven benchmark for T2AV generation featuring high-quality prompts across 11 real-world categories. To support comprehensive assessment, we propose a multi-granular evaluation framework that combines lightweight specialist models with Multimodal Large Language Models (MLLMs), enabling evaluation from perceptual quality to fine-grained semantic controllability. Our evaluation reveals a pronounced gap between strong audio-visual aesthetics and weak semantic reliability, including persistent failures in text rendering, speech coherence, physical reasoning, and a universal breakdown in musical pitch control. Code and benchmark resources are available at http://aka.ms/avgenbench.