ChatPaper.aiChatPaper

TAU: Een Benchmark voor Cultureel Geluidsbegrip Voorbij Semantiek

TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics

September 30, 2025
Auteurs: Yi-Cheng Lin, Yu-Hua Chen, Jia-Kai Dong, Yueh-Hsuan Huang, Szu-Chi Chen, Yu-Chen Chen, Chih-Yao Chen, Yu-Jung Lin, Yu-Ling Chen, Zih-Yu Chen, I-Ning Tsai, Hsiu-Hsuan Wang, Ho-Lam Chung, Ke-Han Lu, Hung-yi Lee
cs.AI

Samenvatting

Grote audio-taalmodellen ontwikkelen zich snel, maar de meeste evaluaties leggen de nadruk op spraak of wereldwijd verzamelde geluiden, waarbij cultureel onderscheidende signalen over het hoofd worden gezien. Deze kloof roept een kritische vraag op: kunnen huidige modellen generaliseren naar gelokaliseerde, niet-semantische audio die gemeenschappen direct herkennen maar buitenstaanders niet? Om dit aan te pakken, presenteren we TAU (Taiwan Audio Understanding), een benchmark van alledaagse Taiwanese "soundmarks." TAU is opgebouwd via een pijplijn die gecureerde bronnen, menselijke bewerking en LLM-ondersteunde vraaggeneratie combineert, wat resulteert in 702 clips en 1.794 meerkeuzevragen die niet alleen met transcripten kunnen worden opgelost. Experimenten tonen aan dat state-of-the-art LALM's, waaronder Gemini 2.5 en Qwen2-Audio, ver onder het niveau van lokale mensen presteren. TAU toont de noodzaak aan van gelokaliseerde benchmarks om culturele blinde vlekken te onthullen, meer rechtvaardige multimodale evaluatie te begeleiden en ervoor te zorgen dat modellen gemeenschappen buiten de mondiale mainstream dienen.
English
Large audio-language models are advancing rapidly, yet most evaluations emphasize speech or globally sourced sounds, overlooking culturally distinctive cues. This gap raises a critical question: can current models generalize to localized, non-semantic audio that communities instantly recognize but outsiders do not? To address this, we present TAU (Taiwan Audio Understanding), a benchmark of everyday Taiwanese "soundmarks." TAU is built through a pipeline combining curated sources, human editing, and LLM-assisted question generation, producing 702 clips and 1,794 multiple-choice items that cannot be solved by transcripts alone. Experiments show that state-of-the-art LALMs, including Gemini 2.5 and Qwen2-Audio, perform far below local humans. TAU demonstrates the need for localized benchmarks to reveal cultural blind spots, guide more equitable multimodal evaluation, and ensure models serve communities beyond the global mainstream.
PDF22October 1, 2025