ChatPaper.aiChatPaper

TAU: Un Benchmark per la Comprensione Culturale del Suono Oltre la Semantica

TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics

September 30, 2025
Autori: Yi-Cheng Lin, Yu-Hua Chen, Jia-Kai Dong, Yueh-Hsuan Huang, Szu-Chi Chen, Yu-Chen Chen, Chih-Yao Chen, Yu-Jung Lin, Yu-Ling Chen, Zih-Yu Chen, I-Ning Tsai, Hsiu-Hsuan Wang, Ho-Lam Chung, Ke-Han Lu, Hung-yi Lee
cs.AI

Abstract

I modelli audio-linguistici di grandi dimensioni stanno avanzando rapidamente, tuttavia la maggior parte delle valutazioni si concentra sul parlato o su suoni di provenienza globale, trascurando gli indizi culturalmente distintivi. Questa lacuna solleva una questione cruciale: i modelli attuali sono in grado di generalizzare suoni audio localizzati e non semantici che le comunità riconoscono immediatamente ma che gli estranei non colgono? Per affrontare questo problema, presentiamo TAU (Taiwan Audio Understanding), un benchmark di "suoni caratteristici" quotidiani taiwanesi. TAU è stato costruito attraverso una pipeline che combina fonti curate, editing umano e generazione di domande assistita da LLM, producendo 702 clip e 1.794 elementi a scelta multipla che non possono essere risolti solo con le trascrizioni. Gli esperimenti mostrano che i LALM all'avanguardia, tra cui Gemini 2.5 e Qwen2-Audio, hanno prestazioni molto inferiori rispetto agli esseri umani locali. TAU dimostra la necessità di benchmark localizzati per rivelare i punti ciechi culturali, guidare valutazioni multimodali più eque e garantire che i modelli servano comunità al di là del mainstream globale.
English
Large audio-language models are advancing rapidly, yet most evaluations emphasize speech or globally sourced sounds, overlooking culturally distinctive cues. This gap raises a critical question: can current models generalize to localized, non-semantic audio that communities instantly recognize but outsiders do not? To address this, we present TAU (Taiwan Audio Understanding), a benchmark of everyday Taiwanese "soundmarks." TAU is built through a pipeline combining curated sources, human editing, and LLM-assisted question generation, producing 702 clips and 1,794 multiple-choice items that cannot be solved by transcripts alone. Experiments show that state-of-the-art LALMs, including Gemini 2.5 and Qwen2-Audio, perform far below local humans. TAU demonstrates the need for localized benchmarks to reveal cultural blind spots, guide more equitable multimodal evaluation, and ensure models serve communities beyond the global mainstream.
PDF22October 1, 2025