Una Revisión de los Modelos de Lenguaje de Audio a Gran Escala: Generalización, Confiabilidad y Perspectivas

Resumen

Las capacidades fundamentales establecidas por los Modelos de Lenguaje de Gran Escala (LLMs) han allanado el camino para los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs), dentro de los cuales los Modelos de Lenguaje Auditivo de Gran Escala (LALMs) son esenciales para alcanzar una inteligencia auditiva universal. A pesar de su notable desempeño, la escalada en las capacidades de los LALMs ha superado significativamente el desarrollo de marcos sistémicos que garanticen su fiabilidad. Este estudio presenta una investigación exhaustiva sobre los mecanismos endógenos de los LALMs, detallando las innovaciones arquitectónicas y los algoritmos de alineación que facilitan el razonamiento emergente. En concreto, analizamos cómo la transición hacia marcos unificados de extremo a extremo y la integración de señales acústicas continuas expanden inherentemente la superficie de ataque. Para evaluar rigurosamente los riesgos dentro de estos paradigmas, establecemos una taxonomía integral de la fiabilidad, categorizando vulnerabilidades críticas como el jailbreaking cross-modal, las puertas traseras acústicas latentes y la filtración de privacidad biométrica. Revisamos el estado del arte a través de seis pilares analíticos: alucinación, robustez, seguridad, privacidad, equidad y autenticación. El profundo desequilibrio entre un panorama ofensivo maduro y defensas subdesarrolladas valida aún más las brechas críticas de fiabilidad y los riesgos multidimensionales que enfrenta la inteligencia centrada en el audio. Finalmente, proponemos una hoja de ruta estratégica que aboga por arquitecturas de "Defensa en Profundidad", modelado causal del mundo auditivo e ingeniería de representación intrínseca para cerrar la brecha entre el rendimiento empírico y una inteligencia auditiva intrínsecamente fiable. Nuestro proyecto se ha subido a GitHub https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs.

English

The foundational capabilities established by Large Language Models (LLMs) have paved the way for Multimodal Large Language Models (MLLMs), within which Large Audio Language Models (LALMs) are essential for realizing universal auditory intelligence. Despite their remarkable performance, the escalation of LALMs' capabilities has significantly outpaced the development of systemic frameworks to ensure their trustworthiness. This survey provides a comprehensive investigation into the endogenous mechanisms of LALMs, detailing the architectural innovations and alignment algorithms that facilitate emergent reasoning. Specifically, we analyze how the transition to unified end-to-end frameworks and the integration of continuous acoustic signals inherently expand the attack surface. To rigorously evaluate the risks within these paradigms, we establish a comprehensive taxonomy of trustworthiness, categorizing critical vulnerabilities such as cross-modal jailbreaking, latent acoustic backdoors, and biometric privacy leakage. We review the state-of-the-art through six analytical pillars: hallucination, robustness, safety, privacy, fairness, and authentication. The profound imbalance between a mature offensive landscape and underdeveloped defenses further validates the critical trustworthiness gaps and multidimensional risks facing audio-centric intelligence. Finally, we propose a strategic roadmap advocating for "Defense-in-Depth" architectures, causal auditory world modeling, and intrinsic representation engineering to bridge the gap between empirical performance and intrinsically trustworthy audio intelligence. Our project has been uploaded to GitHub https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs.