Ein Überblick über große Audio-Sprachmodelle: Generalisierung, Vertrauenswürdigkeit und Ausblick

Zusammenfassung

Die grundlegenden Fähigkeiten, die durch Große Sprachmodelle (LLMs) etabliert wurden, haben den Weg für Multimodale Große Sprachmodelle (MLLMs) geebnet, innerhalb derer Große Audio-Sprachmodelle (LALMs) für die Verwirklichung universeller auditiver Intelligenz essenziell sind. Trotz ihrer bemerkenswerten Leistung hat die Eskalation der Fähigkeiten von LALMs die Entwicklung systemischer Rahmenwerke zur Sicherstellung ihrer Vertrauenswürdigkeit deutlich überholt. Diese Übersichtsarbeit bietet eine umfassende Untersuchung der endogenen Mechanismen von LALMs und beschreibt detailliert die architektonischen Innovationen und Ausrichtungsalgorithmen, die emergentes Schlussfolgern ermöglichen. Insbesondere analysieren wir, wie der Übergang zu einheitlichen End-to-End-Frameworks und die Integration kontinuierlicher akustischer Signale die Angriffsfläche inhärent erweitern. Um die Risiken innerhalb dieser Paradigmen rigoros zu bewerten, erstellen wir eine umfassende Taxonomie der Vertrauenswürdigkeit, die kritische Schwachstellen wie kreuzmodales Jailbreaking, latente akustische Hintertüren und biometrische Privatsphäreverletzungen kategorisiert. Wir betrachten den aktuellen Stand der Technik anhand von sechs analytischen Säulen: Halluzination, Robustheit, Sicherheit, Privatsphäre, Fairness und Authentifizierung. Das tiefgreifende Ungleichgewicht zwischen einer ausgereiften Angriffslandschaft und unterentwickelten Abwehrmaßnahmen bestätigt zudem die kritischen Vertrauenswürdigkeitslücken und multidimensionalen Risiken, denen audiozentrische Intelligenz gegenübersteht. Schließlich schlagen wir eine strategische Roadmap vor, die für "Defense-in-Depth"-Architekturen, kausale auditive Weltmodellierung und intrinsisches Repräsentations-Engineering plädiert, um die Kluft zwischen empirischer Leistung und intrinsisch vertrauenswürdiger Audiointelligenz zu überbrücken. Unser Projekt wurde auf GitHub hochgeladen: https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs.

English

The foundational capabilities established by Large Language Models (LLMs) have paved the way for Multimodal Large Language Models (MLLMs), within which Large Audio Language Models (LALMs) are essential for realizing universal auditory intelligence. Despite their remarkable performance, the escalation of LALMs' capabilities has significantly outpaced the development of systemic frameworks to ensure their trustworthiness. This survey provides a comprehensive investigation into the endogenous mechanisms of LALMs, detailing the architectural innovations and alignment algorithms that facilitate emergent reasoning. Specifically, we analyze how the transition to unified end-to-end frameworks and the integration of continuous acoustic signals inherently expand the attack surface. To rigorously evaluate the risks within these paradigms, we establish a comprehensive taxonomy of trustworthiness, categorizing critical vulnerabilities such as cross-modal jailbreaking, latent acoustic backdoors, and biometric privacy leakage. We review the state-of-the-art through six analytical pillars: hallucination, robustness, safety, privacy, fairness, and authentication. The profound imbalance between a mature offensive landscape and underdeveloped defenses further validates the critical trustworthiness gaps and multidimensional risks facing audio-centric intelligence. Finally, we propose a strategic roadmap advocating for "Defense-in-Depth" architectures, causal auditory world modeling, and intrinsic representation engineering to bridge the gap between empirical performance and intrinsically trustworthy audio intelligence. Our project has been uploaded to GitHub https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs.