LLMバックボーンにおける聴覚知識が音声言語モデルをどう形成するか:総合的な評価
How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation
March 19, 2026
著者: Ke-Han Lu, Szu-Wei Fu, Chao-Han Huck Yang, Zhehuai Chen, Sung-Feng Huang, Chih-Kai Yang, Yi-Cheng Lin, Chi-Yuan Hsiao, Wenze Ren, En-Pei Hu, Yu-Han Huang, An-Yu Cheng, Cheng-Han Chiang, Yu Tsao, Yu-Chiang Frank Wang, Hung-yi Lee
cs.AI
要旨
大規模言語モデル(LLM)は、大規模音声言語モデル(LALM)の知識基盤として広く利用されているが、テキストのみの事前学習を通じてどの程度の聴覚的知識が符号化されるか、またこれが下流タスクの性能にどう影響するかは明らかでない。本研究ではこの課題に対し、3つの異なる設定(テキストのみ2種、音声基盤1種)で各種LLMを比較検証する:(1)AKB-2000(聴覚的知識の広度と深度を測定するために構築されたベンチマーク)を用いた直接評価;(2)音声キャプションモデルから得たテキスト記述をLLMが推論するカスケード評価;(3)音声エンコーダと組み合わせて各LLMをLALMにファインチューニングする音声基盤評価。結果として、聴覚的知識はモデル系列間で大きく異なり、テキストのみの評価結果は音声性能と強い相関を示すことが明らかになった。本研究成果は、音声研究におけるLLMの包括的理解に実証的基盤を提供するものである。
English
Large language models (LLMs) have been widely used as knowledge backbones of Large Audio Language Models (LALMs), yet how much auditory knowledge they encode through text-only pre-training and how this affects downstream performance remains unclear. We study this gap by comparing different LLMs under two text-only and one audio-grounded setting: (1) direct probing on AKB-2000, a curated benchmark testing the breadth and depth of auditory knowledge; (2) cascade evaluation, where LLMs reason over text descriptions from an audio captioner; and (3) audio-grounded evaluation, where each LLM is fine-tuned into a Large Audio Language Model (LALM) with an audio encoder. Our findings reveal that auditory knowledge varies substantially across families, and text-only results are strongly correlated with audio performance. Our work provides empirical grounding for a comprehensive understanding of LLMs in audio research.