TAU: Un punto de referencia para la comprensión cultural del sonido más allá de la semántica
TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics
September 30, 2025
Autores: Yi-Cheng Lin, Yu-Hua Chen, Jia-Kai Dong, Yueh-Hsuan Huang, Szu-Chi Chen, Yu-Chen Chen, Chih-Yao Chen, Yu-Jung Lin, Yu-Ling Chen, Zih-Yu Chen, I-Ning Tsai, Hsiu-Hsuan Wang, Ho-Lam Chung, Ke-Han Lu, Hung-yi Lee
cs.AI
Resumen
Los modelos grandes de audio-lenguaje están avanzando rápidamente, pero la mayoría de las evaluaciones se centran en el habla o en sonidos de origen global, pasando por alto señales culturalmente distintivas. Esta brecha plantea una pregunta crítica: ¿pueden los modelos actuales generalizar a audios localizados y no semánticos que las comunidades reconocen al instante pero los forasteros no? Para abordar esto, presentamos TAU (Taiwan Audio Understanding), un punto de referencia de "soundmarks" cotidianos de Taiwán. TAU se construye mediante un proceso que combina fuentes curadas, edición humana y generación de preguntas asistida por LLM, produciendo 702 clips y 1,794 ítems de opción múltiple que no pueden resolverse únicamente con transcripciones. Los experimentos muestran que los LALMs de última generación, incluidos Gemini 2.5 y Qwen2-Audio, tienen un rendimiento muy inferior al de los humanos locales. TAU demuestra la necesidad de puntos de referencia localizados para revelar puntos ciegos culturales, guiar evaluaciones multimodales más equitativas y garantizar que los modelos sirvan a comunidades más allá de la corriente global dominante.
English
Large audio-language models are advancing rapidly, yet most evaluations
emphasize speech or globally sourced sounds, overlooking culturally distinctive
cues. This gap raises a critical question: can current models generalize to
localized, non-semantic audio that communities instantly recognize but
outsiders do not? To address this, we present TAU (Taiwan Audio Understanding),
a benchmark of everyday Taiwanese "soundmarks." TAU is built through a pipeline
combining curated sources, human editing, and LLM-assisted question generation,
producing 702 clips and 1,794 multiple-choice items that cannot be solved by
transcripts alone. Experiments show that state-of-the-art LALMs, including
Gemini 2.5 and Qwen2-Audio, perform far below local humans. TAU demonstrates
the need for localized benchmarks to reveal cultural blind spots, guide more
equitable multimodal evaluation, and ensure models serve communities beyond the
global mainstream.