ChatPaper.aiChatPaper

Обзор больших аудиоязыковых моделей: обобщение, надежность и перспективы

A Survey of Large Audio Language Models: Generalization, Trustworthiness, and Outlook

May 18, 2026
Авторы: Kaiwen Luo, Zhenhong Zhou, Leo Wang, Liang Lin, Yang Xiao, Tianyu Shao, Yuanhe Zhang, Yuxuan Li, Miao Yu, Kailin Lyu, Jiaming Zhang, Dongrui Liu, Li Sun, Yueming Wu, Kai Li, Ting Dang, Xiaojun Jia, Rohan Kumar Das, Xinfeng Li, Siyuan Liang, Qiufeng Wang, Xingjun Ma, Jing Chen, Kun Wang, Junhao Dong, Deqing Zou, Yu Cheng, Xia Hu, Zhigang Zeng, Sen Su, Yang Liu, Yu-Gang Jiang, Philip S. Yu, Yew-Soon Ong
cs.AI

Аннотация

Фундаментальные возможности, заложенные большими языковыми моделями (БЯМ), проложили путь для мультимодальных больших языковых моделей (МБЯМ), среди которых большие аудиоязыковые модели (БАЯМ) являются ключевыми для реализации универсального слухового интеллекта. Несмотря на их выдающуюся производительность, рост возможностей БАЯМ значительно опережает разработку системных фреймворков, обеспечивающих их надежность. Данный обзор представляет всестороннее исследование эндогенных механизмов БАЯМ, детально рассматривая архитектурные инновации и алгоритмы согласования, способствующие возникновению рассуждений. В частности, мы анализируем, как переход к унифицированным сквозным архитектурам и интеграция непрерывных акустических сигналов по своей сути расширяют поверхность атаки. Для строгой оценки рисков в рамках этих парадигм мы создаем всеобъемлющую таксономию надежности, классифицируя критические уязвимости, такие как межмодальный взлом, скрытые акустические бэкдоры и утечка биометрической конфиденциальности. Мы рассматриваем современное состояние по шести аналитическим направлениям: галлюцинации, устойчивость, безопасность, конфиденциальность, справедливость и аутентификация. Глубокий дисбаланс между зрелым ландшафтом атак и недостаточно развитыми защитными механизмами дополнительно подтверждает критические пробелы в надежности и многомерные риски, с которыми сталкивается слуховой интеллект. В завершение мы предлагаем стратегическую дорожную карту, рекомендующую архитектуры «эшелонированной защиты», причинное моделирование слухового мира и инженерию внутренних представлений для преодоления разрыва между эмпирической производительностью и внутренне надежным слуховым интеллектом. Наш проект загружен на GitHub: https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs.
English
The foundational capabilities established by Large Language Models (LLMs) have paved the way for Multimodal Large Language Models (MLLMs), within which Large Audio Language Models (LALMs) are essential for realizing universal auditory intelligence. Despite their remarkable performance, the escalation of LALMs' capabilities has significantly outpaced the development of systemic frameworks to ensure their trustworthiness. This survey provides a comprehensive investigation into the endogenous mechanisms of LALMs, detailing the architectural innovations and alignment algorithms that facilitate emergent reasoning. Specifically, we analyze how the transition to unified end-to-end frameworks and the integration of continuous acoustic signals inherently expand the attack surface. To rigorously evaluate the risks within these paradigms, we establish a comprehensive taxonomy of trustworthiness, categorizing critical vulnerabilities such as cross-modal jailbreaking, latent acoustic backdoors, and biometric privacy leakage. We review the state-of-the-art through six analytical pillars: hallucination, robustness, safety, privacy, fairness, and authentication. The profound imbalance between a mature offensive landscape and underdeveloped defenses further validates the critical trustworthiness gaps and multidimensional risks facing audio-centric intelligence. Finally, we propose a strategic roadmap advocating for "Defense-in-Depth" architectures, causal auditory world modeling, and intrinsic representation engineering to bridge the gap between empirical performance and intrinsically trustworthy audio intelligence. Our project has been uploaded to GitHub https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs.