LongAV-Compass: Hacia una Evaluación Unificada de la Generación Audiovisual a Escala de Minutos en T2AV, I2AV y V2AV

Resumen

La generación audiovisual avanza rápidamente desde clips cortos hasta contenido de un minuto de duración, mientras que los protocolos de evaluación existentes permanecen en gran medida limitados a entornos de formato corto. Los puntos de referencia actuales se centran principalmente en la generación condicionada por texto de 5 a 10 segundos y rara vez admiten una evaluación unificada en las modalidades de condicionamiento de texto, imagen y video. Además, brindan una visión limitada de cómo la consistencia de identidad, la coherencia narrativa y la alineación audiovisual se degradan a lo largo de horizontes temporales extendidos. Para cerrar esta brecha, presentamos LongAV-Compass, un punto de referencia sistemático para la generación audiovisual de un minuto de duración. LongAV-Compass contiene 284 casos de prueba seleccionados que abarcan conversión de texto a audio-video (T2AV), de imagen a audio-video (I2AV) y de video a audio-video (V2AV), organizados por escenario de aplicación y complejidad de generación. El punto de referencia combina la construcción de referencia guiada por taxonomía con un marco de evaluación unificado que integra la evaluación asistida por MLLM con métricas perceptivas y multimodales complementarias, incluyendo DINO-v2, ArcFace, CLIP e ImageBind. El marco evalúa más de 20 dimensiones detalladas que abarcan calidad intra-segmento, consistencia entre segmentos, coherencia narrativa global, alineación semántica y sincronización audiovisual. Mediante experimentos en 11 modelos representativos junto con validación de alineación humana, LongAV-Compass proporciona un banco de pruebas de diagnóstico para analizar las limitaciones de los sistemas actuales para mantener una generación audiovisual coherente, semánticamente alineada y temporalmente consistente a escala de minutos a través de diversas modalidades de entrada.

English

Audio-visual generation is rapidly advancing from short clips to minute-long content, while existing evaluation protocols remain largely confined to short-form settings. Existing benchmarks primarily focus on 5--10 second text-conditioned generation and rarely support unified evaluation across text, image, and video conditioning modalities. Moreover, they provide limited insight into how identity consistency, narrative coherence, and audio-visual alignment degrade over extended temporal horizons. To bridge this gap, we introduce LongAV-Compass, a systematic benchmark for minute-long audio-visual generation. LongAV-Compass contains 284 curated test cases spanning text-to-audio-video (T2AV), image-to-audio-video (I2AV), and video-to-audio-video (V2AV), organized by application scenario and generation complexity. The benchmark combines taxonomy-guided benchmark construction with a unified evaluation framework that integrates MLLM-assisted assessment with complementary perceptual and multimodal metrics, including DINO-v2, ArcFace, CLIP, and ImageBind. The framework evaluates more than 20 fine-grained dimensions covering within-segment quality, cross-segment consistency, global narrative coherence, semantic alignment, and audio-visual synchronization. Through experiments on 11 representative models together with human-alignment validation, LongAV-Compass provides a diagnostic testbed for analyzing the limitations of current systems in sustaining coherent, semantically aligned, and temporally consistent minute-scale audio-visual generation across diverse input modalities.