Como o Conhecimento Auditivo nos Backbones de LLM Molda os Modelos de Linguagem de Áudio: Uma Avaliação Holística

Resumo

Os modelos de linguagem de grande escala (LLMs) têm sido amplamente utilizados como bases de conhecimento para Modelos de Linguagem de Áudio de Grande Escala (LALMs), mas ainda não está claro quanto conhecimento auditivo eles codificam através do pré-treinamento apenas com texto e como isso afeta o desempenho em tarefas subsequentes. Investigamos essa lacuna comparando diferentes LLMs sob duas configurações baseadas apenas em texto e uma baseada em áudio: (1) sondagem direta no AKB-2000, um benchmark curado que testa a amplitude e profundidade do conhecimento auditivo; (2) avaliação em cascata, onde os LLMs raciocinam sobre descrições textuais provenientes de um gerador de legendas de áudio; e (3) avaliação com base em áudio, onde cada LLM é ajustado para se tornar um Modelo de Linguagem de Áudio de Grande Escala (LALM) com um codificador de áudio. Nossos resultados revelam que o conhecimento auditivo varia substancialmente entre diferentes famílias de modelos, e os resultados baseados apenas em texto apresentam forte correlação com o desempenho em áudio. Nosso trabalho fornece fundamentação empírica para uma compreensão abrangente dos LLMs na pesquisa em áudio.

English

Large language models (LLMs) have been widely used as knowledge backbones of Large Audio Language Models (LALMs), yet how much auditory knowledge they encode through text-only pre-training and how this affects downstream performance remains unclear. We study this gap by comparing different LLMs under two text-only and one audio-grounded setting: (1) direct probing on AKB-2000, a curated benchmark testing the breadth and depth of auditory knowledge; (2) cascade evaluation, where LLMs reason over text descriptions from an audio captioner; and (3) audio-grounded evaluation, where each LLM is fine-tuned into a Large Audio Language Model (LALM) with an audio encoder. Our findings reveal that auditory knowledge varies substantially across families, and text-only results are strongly correlated with audio performance. Our work provides empirical grounding for a comprehensive understanding of LLMs in audio research.