ChatPaper.aiChatPaper

Как слуховые знания в основе больших языковых моделей формируют аудио-языковые модели: комплексная оценка

How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation

March 19, 2026
Авторы: Ke-Han Lu, Szu-Wei Fu, Chao-Han Huck Yang, Zhehuai Chen, Sung-Feng Huang, Chih-Kai Yang, Yi-Cheng Lin, Chi-Yuan Hsiao, Wenze Ren, En-Pei Hu, Yu-Han Huang, An-Yu Cheng, Cheng-Han Chiang, Yu Tsao, Yu-Chiang Frank Wang, Hung-yi Lee
cs.AI

Аннотация

Крупные языковые модели (LLMs) широко используются в качестве основы знаний для больших аудио-языковых моделей (LALMs), однако степень их слуховых знаний, приобретенных в ходе предварительного обучения только на текстах, и ее влияние на итоговую производительность остаются неясными. Мы исследуем этот пробел, сравнивая различные LLMs в трех условиях: двух текстовых и одном с использованием аудиоданных: (1) прямое тестирование на AKB-2000, специально созданном бенчмарке для оценки широты и глубины слуховых знаний; (2) каскадная оценка, при которой LLMs выполняют рассуждения на основе текстовых описаний от аудио-капционера; и (3) оценка с заземлением на аудио, при которой каждая LLM дообучается в LALM с помощью аудио-энкодера. Наши результаты показывают, что объем слуховых знаний существенно различается между семействами моделей, а результаты текстовой оценки тесно коррелируют с производительностью на аудиоданных. Наша работа предоставляет эмпирическую основу для всестороннего понимания роли LLMs в аудио-исследованиях.
English
Large language models (LLMs) have been widely used as knowledge backbones of Large Audio Language Models (LALMs), yet how much auditory knowledge they encode through text-only pre-training and how this affects downstream performance remains unclear. We study this gap by comparing different LLMs under two text-only and one audio-grounded setting: (1) direct probing on AKB-2000, a curated benchmark testing the breadth and depth of auditory knowledge; (2) cascade evaluation, where LLMs reason over text descriptions from an audio captioner; and (3) audio-grounded evaluation, where each LLM is fine-tuned into a Large Audio Language Model (LALM) with an audio encoder. Our findings reveal that auditory knowledge varies substantially across families, and text-only results are strongly correlated with audio performance. Our work provides empirical grounding for a comprehensive understanding of LLMs in audio research.
PDF41April 2, 2026