ChatPaper.aiChatPaper

TAU: Ein Benchmark für das kulturelle Klangverständnis jenseits der Semantik

TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics

September 30, 2025
papers.authors: Yi-Cheng Lin, Yu-Hua Chen, Jia-Kai Dong, Yueh-Hsuan Huang, Szu-Chi Chen, Yu-Chen Chen, Chih-Yao Chen, Yu-Jung Lin, Yu-Ling Chen, Zih-Yu Chen, I-Ning Tsai, Hsiu-Hsuan Wang, Ho-Lam Chung, Ke-Han Lu, Hung-yi Lee
cs.AI

papers.abstract

Große Audio-Sprachmodelle entwickeln sich rasant, doch die meisten Bewertungen konzentrieren sich auf Sprache oder global bezogene Klänge und übersehen dabei kulturell einzigartige Hinweise. Diese Lücke wirft eine entscheidende Frage auf: Können aktuelle Modelle auf lokalisierte, nicht-semantische Audiodaten verallgemeinern, die Gemeinschaften sofort erkennen, Außenstehende jedoch nicht? Um dies zu untersuchen, präsentieren wir TAU (Taiwan Audio Understanding), einen Benchmark für alltägliche taiwanesische „Soundmarks“. TAU wurde durch eine Pipeline erstellt, die kuratierte Quellen, menschliche Bearbeitung und LLM-gestützte Fragenerstellung kombiniert, und umfasst 702 Clips sowie 1.794 Multiple-Choice-Aufgaben, die nicht allein durch Transkripte gelöst werden können. Experimente zeigen, dass state-of-the-art LALMs, einschließlich Gemini 2.5 und Qwen2-Audio, weit unterhalb der Leistung lokaler menschlicher Probanden liegen. TAU verdeutlicht die Notwendigkeit lokalisierter Benchmarks, um kulturelle Blindstellen aufzudecken, eine gerechtere multimodale Bewertung zu leiten und sicherzustellen, dass Modelle Gemeinschaften jenseits des globalen Mainstreams dienen.
English
Large audio-language models are advancing rapidly, yet most evaluations emphasize speech or globally sourced sounds, overlooking culturally distinctive cues. This gap raises a critical question: can current models generalize to localized, non-semantic audio that communities instantly recognize but outsiders do not? To address this, we present TAU (Taiwan Audio Understanding), a benchmark of everyday Taiwanese "soundmarks." TAU is built through a pipeline combining curated sources, human editing, and LLM-assisted question generation, producing 702 clips and 1,794 multiple-choice items that cannot be solved by transcripts alone. Experiments show that state-of-the-art LALMs, including Gemini 2.5 and Qwen2-Audio, perform far below local humans. TAU demonstrates the need for localized benchmarks to reveal cultural blind spots, guide more equitable multimodal evaluation, and ensure models serve communities beyond the global mainstream.
PDF21October 1, 2025