ChatPaper.aiChatPaper

TAU : Un Benchmark pour la Compréhension Culturelle des Sons au-delà de la Sémantique

TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics

September 30, 2025
papers.authors: Yi-Cheng Lin, Yu-Hua Chen, Jia-Kai Dong, Yueh-Hsuan Huang, Szu-Chi Chen, Yu-Chen Chen, Chih-Yao Chen, Yu-Jung Lin, Yu-Ling Chen, Zih-Yu Chen, I-Ning Tsai, Hsiu-Hsuan Wang, Ho-Lam Chung, Ke-Han Lu, Hung-yi Lee
cs.AI

papers.abstract

Les grands modèles audio-langage progressent rapidement, mais la plupart des évaluations mettent l'accent sur la parole ou des sons d'origine globale, négligeant les indices culturellement distinctifs. Cette lacune soulève une question cruciale : les modèles actuels peuvent-ils généraliser à des audios localisés et non sémantiques que les communautés reconnaissent instantanément mais que les étrangers ne perçoivent pas ? Pour répondre à cela, nous présentons TAU (Taiwan Audio Understanding), un benchmark de "soundmarks" quotidiens taïwanais. TAU est construit via un pipeline combinant des sources sélectionnées, un éditing humain et une génération de questions assistée par des LLM, produisant 702 clips et 1 794 questions à choix multiples qui ne peuvent être résolues par les transcriptions seules. Les expériences montrent que les LALM de pointe, y compris Gemini 2.5 et Qwen2-Audio, performent bien en dessous des humains locaux. TAU démontre la nécessité de benchmarks localisés pour révéler les angles morts culturels, guider une évaluation multimodale plus équitable et garantir que les modèles servent des communautés au-delà du courant dominant mondial.
English
Large audio-language models are advancing rapidly, yet most evaluations emphasize speech or globally sourced sounds, overlooking culturally distinctive cues. This gap raises a critical question: can current models generalize to localized, non-semantic audio that communities instantly recognize but outsiders do not? To address this, we present TAU (Taiwan Audio Understanding), a benchmark of everyday Taiwanese "soundmarks." TAU is built through a pipeline combining curated sources, human editing, and LLM-assisted question generation, producing 702 clips and 1,794 multiple-choice items that cannot be solved by transcripts alone. Experiments show that state-of-the-art LALMs, including Gemini 2.5 and Qwen2-Audio, perform far below local humans. TAU demonstrates the need for localized benchmarks to reveal cultural blind spots, guide more equitable multimodal evaluation, and ensure models serve communities beyond the global mainstream.
PDF21October 1, 2025