ChatPaper.aiChatPaper

Hoe auditieve kennis in LLM-backbones audiotalmodellen vormt: een holistische evaluatie

How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation

March 19, 2026
Auteurs: Ke-Han Lu, Szu-Wei Fu, Chao-Han Huck Yang, Zhehuai Chen, Sung-Feng Huang, Chih-Kai Yang, Yi-Cheng Lin, Chi-Yuan Hsiao, Wenze Ren, En-Pei Hu, Yu-Han Huang, An-Yu Cheng, Cheng-Han Chiang, Yu Tsao, Yu-Chiang Frank Wang, Hung-yi Lee
cs.AI

Samenvatting

Grote taalmmodellen (LLM's) worden veelvuldig gebruikt als kennisbackbone voor Grote Audiotaalmodellen (LALM's), maar het blijft onduidelijk hoeveel auditieve kennis ze coderen via tekstgebaseerde voorafgaande training en hoe dit de prestaties downstream beïnvloedt. Wij onderzoeken deze kloof door verschillende LLM's te vergelijken onder twee tekstgebaseerde en één audiogebonden setting: (1) directe probing op AKB-2000, een samengestelde benchmark die de breedte en diepte van auditieve kennis test; (2) cascade-evaluatie, waarbij LLM's redeneren op basis van tekstbeschrijvingen van een audiobeschrijver; en (3) audiogebonden evaluatie, waarbij elk LLM wordt gefinetuned tot een LALM met een audio-encoder. Onze bevindingen tonen aan dat auditieve kennis aanzienlijk varieert tussen modelfamilies, en dat tekstgebaseerde resultaten sterk gecorreleerd zijn met audioprestaties. Ons werk biedt een empirische basis voor een uitgebreid begrip van LLM's in audio-onderzoek.
English
Large language models (LLMs) have been widely used as knowledge backbones of Large Audio Language Models (LALMs), yet how much auditory knowledge they encode through text-only pre-training and how this affects downstream performance remains unclear. We study this gap by comparing different LLMs under two text-only and one audio-grounded setting: (1) direct probing on AKB-2000, a curated benchmark testing the breadth and depth of auditory knowledge; (2) cascade evaluation, where LLMs reason over text descriptions from an audio captioner; and (3) audio-grounded evaluation, where each LLM is fine-tuned into a Large Audio Language Model (LALM) with an audio encoder. Our findings reveal that auditory knowledge varies substantially across families, and text-only results are strongly correlated with audio performance. Our work provides empirical grounding for a comprehensive understanding of LLMs in audio research.
PDF41April 2, 2026