ChatPaper.aiChatPaper

TAU: Um Benchmark para Compreensão de Sons Culturais Além da Semântica

TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics

September 30, 2025
Autores: Yi-Cheng Lin, Yu-Hua Chen, Jia-Kai Dong, Yueh-Hsuan Huang, Szu-Chi Chen, Yu-Chen Chen, Chih-Yao Chen, Yu-Jung Lin, Yu-Ling Chen, Zih-Yu Chen, I-Ning Tsai, Hsiu-Hsuan Wang, Ho-Lam Chung, Ke-Han Lu, Hung-yi Lee
cs.AI

Resumo

Grandes modelos de áudio-linguagem estão avançando rapidamente, mas a maioria das avaliações enfatiza a fala ou sons de origem global, negligenciando pistas culturalmente distintas. Essa lacuna levanta uma questão crítica: os modelos atuais podem generalizar para áudios localizados e não semânticos que as comunidades reconhecem instantaneamente, mas os de fora não? Para abordar isso, apresentamos o TAU (Taiwan Audio Understanding), um benchmark de "soundmarks" cotidianos de Taiwan. O TAU é construído por meio de um pipeline que combina fontes curadas, edição humana e geração de questões assistida por LLM, produzindo 702 clipes e 1.794 itens de múltipla escolha que não podem ser resolvidos apenas por transcrições. Experimentos mostram que os LALMs mais avançados, incluindo Gemini 2.5 e Qwen2-Audio, têm desempenho muito inferior ao dos humanos locais. O TAU demonstra a necessidade de benchmarks localizados para revelar pontos cegos culturais, orientar avaliações multimodais mais equitativas e garantir que os modelos atendam a comunidades além do mainstream global.
English
Large audio-language models are advancing rapidly, yet most evaluations emphasize speech or globally sourced sounds, overlooking culturally distinctive cues. This gap raises a critical question: can current models generalize to localized, non-semantic audio that communities instantly recognize but outsiders do not? To address this, we present TAU (Taiwan Audio Understanding), a benchmark of everyday Taiwanese "soundmarks." TAU is built through a pipeline combining curated sources, human editing, and LLM-assisted question generation, producing 702 clips and 1,794 multiple-choice items that cannot be solved by transcripts alone. Experiments show that state-of-the-art LALMs, including Gemini 2.5 and Qwen2-Audio, perform far below local humans. TAU demonstrates the need for localized benchmarks to reveal cultural blind spots, guide more equitable multimodal evaluation, and ensure models serve communities beyond the global mainstream.
PDF22October 1, 2025