Cómo el Conocimiento Auditivo en los Modelos Base de LLM Da Forma a los Modelos de Lenguaje de Audio: Una Evaluación Integral
How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation
March 19, 2026
Autores: Ke-Han Lu, Szu-Wei Fu, Chao-Han Huck Yang, Zhehuai Chen, Sung-Feng Huang, Chih-Kai Yang, Yi-Cheng Lin, Chi-Yuan Hsiao, Wenze Ren, En-Pei Hu, Yu-Han Huang, An-Yu Cheng, Cheng-Han Chiang, Yu Tsao, Yu-Chiang Frank Wang, Hung-yi Lee
cs.AI
Resumen
Los grandes modelos de lenguaje (LLM) se han utilizado ampliamente como base de conocimiento de los grandes modelos de audio y lenguaje (LALM), pero aún no está claro cuánto conocimiento auditivo codifican mediante el preentrenamiento exclusivo con texto y cómo esto afecta al rendimiento en tareas posteriores. Estudiamos esta brecha comparando diferentes LLM bajo tres configuraciones: dos con solo texto y una con audio: (1) sondeo directo en AKB-2000, un benchmark diseñado para evaluar la amplitud y profundidad del conocimiento auditivo; (2) evaluación en cascada, donde los LLM razonan sobre descripciones textuales generadas por un captioner de audio; y (3) evaluación con base en audio, donde cada LLM se ajusta para convertirse en un LALM mediante un codificador de audio. Nuestros hallazgos revelan que el conocimiento auditivo varía sustancialmente entre familias de modelos, y que los resultados con solo texto están fuertemente correlacionados con el rendimiento en audio. Nuestro trabajo proporciona una base empírica para una comprensión integral de los LLM en la investigación de audio.
English
Large language models (LLMs) have been widely used as knowledge backbones of Large Audio Language Models (LALMs), yet how much auditory knowledge they encode through text-only pre-training and how this affects downstream performance remains unclear. We study this gap by comparing different LLMs under two text-only and one audio-grounded setting: (1) direct probing on AKB-2000, a curated benchmark testing the breadth and depth of auditory knowledge; (2) cascade evaluation, where LLMs reason over text descriptions from an audio captioner; and (3) audio-grounded evaluation, where each LLM is fine-tuned into a Large Audio Language Model (LALM) with an audio encoder. Our findings reveal that auditory knowledge varies substantially across families, and text-only results are strongly correlated with audio performance. Our work provides empirical grounding for a comprehensive understanding of LLMs in audio research.