TAU: Бенчмарк для понимания культурных звуков за пределами семантики
TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics
September 30, 2025
Авторы: Yi-Cheng Lin, Yu-Hua Chen, Jia-Kai Dong, Yueh-Hsuan Huang, Szu-Chi Chen, Yu-Chen Chen, Chih-Yao Chen, Yu-Jung Lin, Yu-Ling Chen, Zih-Yu Chen, I-Ning Tsai, Hsiu-Hsuan Wang, Ho-Lam Chung, Ke-Han Lu, Hung-yi Lee
cs.AI
Аннотация
Крупные аудио-языковые модели быстро развиваются, однако большинство оценок сосредоточено на речи или глобально доступных звуках, игнорируя культурно уникальные сигналы. Этот пробел поднимает важный вопрос: могут ли современные модели обобщать локализованные, не семантические звуки, которые сообщества мгновенно распознают, но которые остаются незаметными для посторонних? Для решения этой проблемы мы представляем TAU (Taiwan Audio Understanding) — эталонный набор повседневных тайваньских "звуковых маркеров". TAU создан с использованием конвейера, сочетающего курируемые источники, ручное редактирование и генерацию вопросов с помощью языковых моделей, что позволило получить 702 аудиоклипа и 1 794 задания с множественным выбором, которые невозможно решить только на основе текстовой расшифровки. Эксперименты показывают, что современные LALM, включая Gemini 2.5 и Qwen2-Audio, значительно уступают местным людям. TAU демонстрирует необходимость локализованных эталонов для выявления культурных слепых зон, обеспечения более справедливой мультимодальной оценки и гарантии того, что модели будут служить сообществам за пределами глобального мейнстрима.
English
Large audio-language models are advancing rapidly, yet most evaluations
emphasize speech or globally sourced sounds, overlooking culturally distinctive
cues. This gap raises a critical question: can current models generalize to
localized, non-semantic audio that communities instantly recognize but
outsiders do not? To address this, we present TAU (Taiwan Audio Understanding),
a benchmark of everyday Taiwanese "soundmarks." TAU is built through a pipeline
combining curated sources, human editing, and LLM-assisted question generation,
producing 702 clips and 1,794 multiple-choice items that cannot be solved by
transcripts alone. Experiments show that state-of-the-art LALMs, including
Gemini 2.5 and Qwen2-Audio, perform far below local humans. TAU demonstrates
the need for localized benchmarks to reveal cultural blind spots, guide more
equitable multimodal evaluation, and ensure models serve communities beyond the
global mainstream.