ChatPaper.aiChatPaper

AVGen-Bench: Eine aufgabengetriebene Benchmark für die mehrgranulare Evaluierung von Text-zu-Audio-Video-Generierung

AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation

April 9, 2026
Autoren: Ziwei Zhou, Zeyuan Lai, Rui Wang, Yifan Yang, Zhen Xing, Yuqing Yang, Qi Dai, Lili Qiu, Chong Luo
cs.AI

Zusammenfassung

Text-to-Audio-Video (T2AV)-Generierung entwickelt sich rasch zu einer zentralen Schnittstelle für die Medienerstellung, doch ihre Bewertung bleibt fragmentiert. Bestehende Benchmarks bewerten Audio und Video weitgehend isoliert oder stützen sich auf grobe Embedding-Ähnlichkeiten, wodurch die feingranulare gemeinsame Korrektheit, die realistische Prompts erfordern, nicht erfasst wird. Wir stellen AVGen-Bench vor, einen aufgabengetriebenen Benchmark für die T2AV-Generierung mit hochwertigen Prompts aus 11 realen Anwendungskategorien. Um eine umfassende Bewertung zu ermöglichen, schlagen wir ein mehrgranulares Evaluierungsframework vor, das schlanke Spezialistenmodelle mit Multimodalen Large Language Models (MLLMs) kombiniert. Dies ermöglicht eine Bewertung von der wahrgenommenen Qualität bis hin zur feingranularen semantischen Steuerbarkeit. Unsere Auswertung zeigt eine deutliche Lücke zwischen starker audiovisueller Ästhetik und schwacher semantischer Zuverlässigkeit auf, einschließlich anhaltender Fehler bei Textdarstellung, Sprachkohärenz, physikalischem Schlussfolgern und einem universellen Versagen bei der Kontrolle der musikalischen Tonhöhe. Code und Benchmark-Ressourcen sind unter http://aka.ms/avgenbench verfügbar.
English
Text-to-Audio-Video (T2AV) generation is rapidly becoming a core interface for media creation, yet its evaluation remains fragmented. Existing benchmarks largely assess audio and video in isolation or rely on coarse embedding similarity, failing to capture the fine-grained joint correctness required by realistic prompts. We introduce AVGen-Bench, a task-driven benchmark for T2AV generation featuring high-quality prompts across 11 real-world categories. To support comprehensive assessment, we propose a multi-granular evaluation framework that combines lightweight specialist models with Multimodal Large Language Models (MLLMs), enabling evaluation from perceptual quality to fine-grained semantic controllability. Our evaluation reveals a pronounced gap between strong audio-visual aesthetics and weak semantic reliability, including persistent failures in text rendering, speech coherence, physical reasoning, and a universal breakdown in musical pitch control. Code and benchmark resources are available at http://aka.ms/avgenbench.
PDF12April 14, 2026