T2AV-Compass: Rumo a uma Avaliação Unificada para Geração de Áudio-Vídeo a Partir de Texto

Resumo

A geração Texto-para-Áudio-Vídeo (T2AV) tem como objetivo sintetizar vídeo temporalmente coerente e áudio semanticamente sincronizado a partir de linguagem natural, mas a sua avaliação permanece fragmentada, frequentemente dependendo de métricas unimodais ou benchmarks de escopo restrito que não capturam o alinhamento cross-modal, a aderência a instruções e o realismo perceptual sob prompts complexos. Para enfrentar esta limitação, apresentamos o T2AV-Compass, um benchmark unificado para avaliação abrangente de sistemas T2AV, composto por 500 prompts diversos e complexos construídos através de um *pipeline* orientado por taxonomia para garantir riqueza semântica e plausibilidade física. Além disso, o T2AV-Compass introduz um quadro de avaliação de duplo nível que integra métricas objetivas de nível de sinal para qualidade de vídeo, qualidade de áudio e alinhamento cross-modal com um protocolo subjetivo MLLM-como-Juiz para avaliação da aderência a instruções e do realismo. Uma avaliação extensiva de 11 sistemas T2AV representativos revela que mesmo os modelos mais fortes ficam substancialmente aquém do realismo e da consistência cross-modal de nível humano, com falhas persistentes no realismo do áudio, sincronização de granularidade fina, aderência a instruções, etc. Estes resultados indicam um espaço significativo de melhoria para modelos futuros e destacam o valor do T2AV-Compass como um banco de testes desafiador e diagnóstico para o avanço da geração texto-para-áudio-vídeo.

English

Text-to-Audio-Video (T2AV) generation aims to synthesize temporally coherent video and semantically synchronized audio from natural language, yet its evaluation remains fragmented, often relying on unimodal metrics or narrowly scoped benchmarks that fail to capture cross-modal alignment, instruction following, and perceptual realism under complex prompts. To address this limitation, we present T2AV-Compass, a unified benchmark for comprehensive evaluation of T2AV systems, consisting of 500 diverse and complex prompts constructed via a taxonomy-driven pipeline to ensure semantic richness and physical plausibility. Besides, T2AV-Compass introduces a dual-level evaluation framework that integrates objective signal-level metrics for video quality, audio quality, and cross-modal alignment with a subjective MLLM-as-a-Judge protocol for instruction following and realism assessment. Extensive evaluation of 11 representative T2AVsystems reveals that even the strongest models fall substantially short of human-level realism and cross-modal consistency, with persistent failures in audio realism, fine-grained synchronization, instruction following, etc. These results indicate significant improvement room for future models and highlight the value of T2AV-Compass as a challenging and diagnostic testbed for advancing text-to-audio-video generation.