Een overzicht van grote audio-taalmodellen: generalisatie, betrouwbaarheid en vooruitblik

Samenvatting

De fundamentele mogelijkheden die door Grote Taalmodellen (LLMs) zijn gevestigd, hebben de weg vrijgemaakt voor Multimodale Grote Taalmodellen (MLLMs), waarvan Grote Audiotalmodellen (LALMs) essentieel zijn voor het realiseren van universele auditieve intelligentie. Ondanks hun opmerkelijke prestaties heeft de escalatie van de capaciteiten van LALMs de ontwikkeling van systemische raamwerken om hun betrouwbaarheid te waarborgen aanzienlijk overtroffen. Dit overzichtsartikel biedt een uitgebreid onderzoek naar de endogene mechanismen van LALMs, waarbij gedetailleerd wordt ingegaan op de architectonische innovaties en afstemmingsalgoritmen die emergente redenering mogelijk maken. Specifiek analyseren we hoe de overgang naar uniforme end-to-end raamwerken en de integratie van continue akoestische signalen inherent het aanvalsoppervlak vergroten. Om de risico's binnen deze paradigma's rigoureus te evalueren, stellen we een uitgebreide taxonomie van betrouwbaarheid op, waarbij kritieke kwetsbaarheden worden gecategoriseerd zoals cross-modale jailbreaking, latente akoestische achterdeuren en biometrische privacy-lekken. We beoordelen de state-of-the-art aan de hand van zes analytische pijlers: hallucinatie, robuustheid, veiligheid, privacy, eerlijkheid en authenticatie. Het diepgaande onevenwicht tussen een volwassen offensief landschap en onderontwikkelde verdedigingen bevestigt verder de kritieke betrouwbaarheidskloven en multidimensionale risico's waarmee audio-gecentreerde intelligentie wordt geconfronteerd. Tot slot stellen we een strategische routekaart voor die pleit voor "Defense-in-Depth"-architecturen, causale auditieve wereldmodellering en intrinsieke representatie-engineering om de kloof tussen empirische prestaties en intrinsiek betrouwbare audio-intelligentie te overbruggen. Ons project is geüpload naar GitHub https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs.

English

The foundational capabilities established by Large Language Models (LLMs) have paved the way for Multimodal Large Language Models (MLLMs), within which Large Audio Language Models (LALMs) are essential for realizing universal auditory intelligence. Despite their remarkable performance, the escalation of LALMs' capabilities has significantly outpaced the development of systemic frameworks to ensure their trustworthiness. This survey provides a comprehensive investigation into the endogenous mechanisms of LALMs, detailing the architectural innovations and alignment algorithms that facilitate emergent reasoning. Specifically, we analyze how the transition to unified end-to-end frameworks and the integration of continuous acoustic signals inherently expand the attack surface. To rigorously evaluate the risks within these paradigms, we establish a comprehensive taxonomy of trustworthiness, categorizing critical vulnerabilities such as cross-modal jailbreaking, latent acoustic backdoors, and biometric privacy leakage. We review the state-of-the-art through six analytical pillars: hallucination, robustness, safety, privacy, fairness, and authentication. The profound imbalance between a mature offensive landscape and underdeveloped defenses further validates the critical trustworthiness gaps and multidimensional risks facing audio-centric intelligence. Finally, we propose a strategic roadmap advocating for "Defense-in-Depth" architectures, causal auditory world modeling, and intrinsic representation engineering to bridge the gap between empirical performance and intrinsically trustworthy audio intelligence. Our project has been uploaded to GitHub https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs.