AVGen-Bench: Un Punto de Referencia Orientado a Tareas para la Evaluación Multigranular de la Generación de Texto a Audio y Video

Resumen

La generación de Texto a Audio-Vídeo (T2AV) se está convirtiendo rápidamente en una interfaz central para la creación de contenidos multimedia, pero su evaluación sigue estando fragmentada. Los puntos de referencia existentes evalúan en gran medida el audio y el vídeo de forma aislada o se basan en similitudes de embeddings aproximadas, sin capturar la corrección conjunta de grano fino que requieren las instrucciones realistas. Presentamos AVGen-Bench, un punto de referencia orientado a tareas para la generación de T2AV que incluye instrucciones de alta calidad en 11 categorías del mundo real. Para respaldar una evaluación integral, proponemos un marco de evaluación multi-granular que combina modelos especializados ligeros con Modelos de Lenguaje Grandes Multimodales (MLLM), permitiendo la evaluación desde la calidad perceptual hasta la controlabilidad semántica de grano fino. Nuestra evaluación revela una brecha pronunciada entre una fuerte estética audiovisual y una fiabilidad semántica débil, incluyendo fallos persistentes en la representación de texto, la coherencia del habla, el razonamiento físico y una ruptura universal en el control de la afinación musical. El código y los recursos del benchmark están disponibles en http://aka.ms/avgenbench.

English

Text-to-Audio-Video (T2AV) generation is rapidly becoming a core interface for media creation, yet its evaluation remains fragmented. Existing benchmarks largely assess audio and video in isolation or rely on coarse embedding similarity, failing to capture the fine-grained joint correctness required by realistic prompts. We introduce AVGen-Bench, a task-driven benchmark for T2AV generation featuring high-quality prompts across 11 real-world categories. To support comprehensive assessment, we propose a multi-granular evaluation framework that combines lightweight specialist models with Multimodal Large Language Models (MLLMs), enabling evaluation from perceptual quality to fine-grained semantic controllability. Our evaluation reveals a pronounced gap between strong audio-visual aesthetics and weak semantic reliability, including persistent failures in text rendering, speech coherence, physical reasoning, and a universal breakdown in musical pitch control. Code and benchmark resources are available at http://aka.ms/avgenbench.

AVGen-Bench: Un Punto de Referencia Orientado a Tareas para la Evaluación Multigranular de la Generación de Texto a Audio y Video

AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation

Resumen

Support