ChatPaper.aiChatPaper

Come le Conoscenze Auditive nei Backbone dei LLM Modellano i Modelli Linguistici Audio: Una Valutazione Olistica

How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation

March 19, 2026
Autori: Ke-Han Lu, Szu-Wei Fu, Chao-Han Huck Yang, Zhehuai Chen, Sung-Feng Huang, Chih-Kai Yang, Yi-Cheng Lin, Chi-Yuan Hsiao, Wenze Ren, En-Pei Hu, Yu-Han Huang, An-Yu Cheng, Cheng-Han Chiang, Yu Tsao, Yu-Chiang Frank Wang, Hung-yi Lee
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono ampiamente utilizzati come basi conoscitive per i Modelli Linguistici Audio di Grande Dimensione (LALM), ma rimane poco chiaro quanta conoscenza uditiva essi codifichino attraverso il pre-addestramento esclusivamente testuale e come questo influisca sulle prestazioni a valle. Studiamo questa lacuna confrontando diversi LLM in tre contesti: due basati solo su testo e uno basato sull'audio: (1) probing diretto su AKB-2000, un benchmark curato che testa l'ampiezza e la profondità della conoscenza uditiva; (2) valutazione a cascata, in cui gli LLM ragionano su descrizioni testuali provenienti da un captioner audio; e (3) valutazione basata sull'audio, in cui ogni LLM viene fine-tuned per diventare un LALM con un encoder audio. I nostri risultati rivelano che la conoscenza uditiva varia sostanzialmente tra le diverse famiglie di modelli, e i risultati ottenuti solo con il testo sono fortemente correlati con le prestazioni audio. Il nostro lavoro fornisce un fondamento empirico per una comprensione completa degli LLM nella ricerca audio.
English
Large language models (LLMs) have been widely used as knowledge backbones of Large Audio Language Models (LALMs), yet how much auditory knowledge they encode through text-only pre-training and how this affects downstream performance remains unclear. We study this gap by comparing different LLMs under two text-only and one audio-grounded setting: (1) direct probing on AKB-2000, a curated benchmark testing the breadth and depth of auditory knowledge; (2) cascade evaluation, where LLMs reason over text descriptions from an audio captioner; and (3) audio-grounded evaluation, where each LLM is fine-tuned into a Large Audio Language Model (LALM) with an audio encoder. Our findings reveal that auditory knowledge varies substantially across families, and text-only results are strongly correlated with audio performance. Our work provides empirical grounding for a comprehensive understanding of LLMs in audio research.
PDF41April 2, 2026