Une revue des grands modèles de langage audio : généralisation, fiabilité et perspectives

Résumé

Les capacités fondamentales établies par les grands modèles de langage (LLMs) ont ouvert la voie aux modèles de langage multimodaux de grande taille (MLLMs), parmi lesquels les grands modèles de langage audio (LALMs) sont essentiels pour réaliser une intelligence auditive universelle. Malgré leurs performances remarquables, l’escalade des capacités des LALMs a considérablement dépassé le développement de cadres systémiques visant à garantir leur fiabilité. Cette étude propose une investigation approfondie des mécanismes endogènes des LALMs, en détaillant les innovations architecturales et les algorithmes d’alignement qui facilitent le raisonnement émergent. Plus précisément, nous analysons comment la transition vers des cadres unifiés de bout en bout et l’intégration de signaux acoustiques continus élargissent intrinsèquement la surface d’attaque. Afin d’évaluer rigoureusement les risques inhérents à ces paradigmes, nous établissons une taxonomie complète de la fiabilité, catégorisant les vulnérabilités critiques telles que le jailbreaking intermodal, les portes dérobées acoustiques latentes et les fuites de confidentialité biométrique. Nous passons en revue l’état de l’art à travers six piliers analytiques : l’hallucination, la robustesse, la sécurité, la confidentialité, l’équité et l’authentification. Le profond déséquilibre entre un paysage offensif mature et des défenses sous-développées valide davantage les lacunes critiques en matière de fiabilité et les risques multidimensionnels auxquels est confrontée l’intelligence audio-centrique. Enfin, nous proposons une feuille de route stratégique préconisant des architectures de « défense en profondeur », une modélisation causale du monde auditif et une ingénierie des représentations intrinsèques pour combler l’écart entre la performance empirique et une intelligence audio intrinsèquement digne de confiance. Notre projet a été mis en ligne sur GitHub à l’adresse https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs.

English

The foundational capabilities established by Large Language Models (LLMs) have paved the way for Multimodal Large Language Models (MLLMs), within which Large Audio Language Models (LALMs) are essential for realizing universal auditory intelligence. Despite their remarkable performance, the escalation of LALMs' capabilities has significantly outpaced the development of systemic frameworks to ensure their trustworthiness. This survey provides a comprehensive investigation into the endogenous mechanisms of LALMs, detailing the architectural innovations and alignment algorithms that facilitate emergent reasoning. Specifically, we analyze how the transition to unified end-to-end frameworks and the integration of continuous acoustic signals inherently expand the attack surface. To rigorously evaluate the risks within these paradigms, we establish a comprehensive taxonomy of trustworthiness, categorizing critical vulnerabilities such as cross-modal jailbreaking, latent acoustic backdoors, and biometric privacy leakage. We review the state-of-the-art through six analytical pillars: hallucination, robustness, safety, privacy, fairness, and authentication. The profound imbalance between a mature offensive landscape and underdeveloped defenses further validates the critical trustworthiness gaps and multidimensional risks facing audio-centric intelligence. Finally, we propose a strategic roadmap advocating for "Defense-in-Depth" architectures, causal auditory world modeling, and intrinsic representation engineering to bridge the gap between empirical performance and intrinsically trustworthy audio intelligence. Our project has been uploaded to GitHub https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs.