AVGen-Bench: Een Taakgestuurd Benchmark voor Multi-Granulaire Evaluatie van Tekst-naar-Audio-Video-Generatie
AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation
April 9, 2026
Auteurs: Ziwei Zhou, Zeyuan Lai, Rui Wang, Yifan Yang, Zhen Xing, Yuqing Yang, Qi Dai, Lili Qiu, Chong Luo
cs.AI
Samenvatting
Text-to-Audio-Video (T2AV)-generatie ontwikkelt zich snel tot een kerninterface voor mediacreatie, maar de evaluatie ervan blijft gefragmenteerd. Bestaande benchmarks beoordelen audio en video grotendeels afzonderlijk of vertrouwen op grove embedding-similariteit, waardoor ze de fijnmazige gezamenlijke correctheid die realistische prompts vereisen niet vastleggen. Wij introduceren AVGen-Bench, een taakgestuurde benchmark voor T2AV-generatie met hoogwaardige prompts in 11 real-world categorieën. Om een uitgebreide beoordeling te ondersteunen, stellen we een multi-granulair evaluatieraamwerk voor dat lichtgewicht specialistenmodellen combineert met Multimodale Large Language Models (MLLM's), waardoor evaluatie mogelijk is van perceptuele kwaliteit tot fijnmazige semantische bestuurbaarheid. Onze evaluatie toont een duidelijke kloof tussen sterke audio-visuele esthetiek en zwakke semantische betrouwbaarheid, waaronder hardnekkige fouten in tekstweergave, spraakcoherentie, fysiek redeneren en een universeel falen in muzikale toonhoogtecontrole. Code en benchmarkmiddelen zijn beschikbaar op http://aka.ms/avgenbench.
English
Text-to-Audio-Video (T2AV) generation is rapidly becoming a core interface for media creation, yet its evaluation remains fragmented. Existing benchmarks largely assess audio and video in isolation or rely on coarse embedding similarity, failing to capture the fine-grained joint correctness required by realistic prompts. We introduce AVGen-Bench, a task-driven benchmark for T2AV generation featuring high-quality prompts across 11 real-world categories. To support comprehensive assessment, we propose a multi-granular evaluation framework that combines lightweight specialist models with Multimodal Large Language Models (MLLMs), enabling evaluation from perceptual quality to fine-grained semantic controllability. Our evaluation reveals a pronounced gap between strong audio-visual aesthetics and weak semantic reliability, including persistent failures in text rendering, speech coherence, physical reasoning, and a universal breakdown in musical pitch control. Code and benchmark resources are available at http://aka.ms/avgenbench.