ChatPaper.aiChatPaper

Comment les connaissances auditives dans les architectures de LLM façonnent les modèles audio-langage : une évaluation holistique

How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation

March 19, 2026
Auteurs: Ke-Han Lu, Szu-Wei Fu, Chao-Han Huck Yang, Zhehuai Chen, Sung-Feng Huang, Chih-Kai Yang, Yi-Cheng Lin, Chi-Yuan Hsiao, Wenze Ren, En-Pei Hu, Yu-Han Huang, An-Yu Cheng, Cheng-Han Chiang, Yu Tsao, Yu-Chiang Frank Wang, Hung-yi Lee
cs.AI

Résumé

Les grands modèles de langage (LLM) sont largement utilisés comme socles de connaissances pour les grands modèles audio-langage (LALM), mais la quantité de connaissances auditives qu'ils acquièrent lors d'un pré-entraînement purement textuel et leur impact sur les performances en aval restent mal compris. Nous étudions cet écart en comparant différents LLM selon trois modalités : deux purement textuelles et une ancrée dans l'audio : (1) sondage direct sur AKB-2000, un benchmark évaluant l'étendue et la profondeur des connaissances auditives ; (2) évaluation en cascade, où les LLM raisonnent sur des descriptions textuelles générées par un système de sous-titrage audio ; et (3) évaluation ancrée dans l'audio, où chaque LLM est affiné en un LALM avec un encodeur audio. Nos résultats révèlent que les connaissances auditives varient considérablement selon les familles de modèles, et que les résultats purement textuels présentent une forte corrélation avec les performances audio. Notre travail fournit des bases empiriques pour une compréhension exhaustive des LLM dans la recherche audio.
English
Large language models (LLMs) have been widely used as knowledge backbones of Large Audio Language Models (LALMs), yet how much auditory knowledge they encode through text-only pre-training and how this affects downstream performance remains unclear. We study this gap by comparing different LLMs under two text-only and one audio-grounded setting: (1) direct probing on AKB-2000, a curated benchmark testing the breadth and depth of auditory knowledge; (2) cascade evaluation, where LLMs reason over text descriptions from an audio captioner; and (3) audio-grounded evaluation, where each LLM is fine-tuned into a Large Audio Language Model (LALM) with an audio encoder. Our findings reveal that auditory knowledge varies substantially across families, and text-only results are strongly correlated with audio performance. Our work provides empirical grounding for a comprehensive understanding of LLMs in audio research.
PDF41April 2, 2026