Uma Pesquisa sobre Grandes Modelos de Linguagem de Áudio: Generalização, Confiabilidade e Perspectivas

Resumo

As capacidades fundamentais estabelecidas pelos Grandes Modelos de Linguagem (LLMs) abriram caminho para os Grandes Modelos de Linguagem Multimodais (MLLMs), nos quais os Grandes Modelos de Linguagem de Áudio (LALMs) são essenciais para a realização de uma inteligência auditiva universal. Apesar do seu desempenho notável, a escalada das capacidades dos LALMs superou significativamente o desenvolvimento de estruturas sistêmicas para garantir sua confiabilidade. Esta pesquisa oferece uma investigação abrangente dos mecanismos endógenos dos LALMs, detalhando as inovações arquitetônicas e os algoritmos de alinhamento que facilitam o raciocínio emergente. Especificamente, analisamos como a transição para estruturas unificadas de ponta a ponta e a integração de sinais acústicos contínuos expandem inerentemente a superfície de ataque. Para avaliar rigorosamente os riscos dentro desses paradigmas, estabelecemos uma taxonomia abrangente de confiabilidade, categorizando vulnerabilidades críticas como quebra de restrições entre modalidades, backdoors acústicos latentes e vazamento de privacidade biométrica. Revisamos o estado da arte por meio de seis pilares analíticos: alucinação, robustez, segurança, privacidade, justiça e autenticação. O profundo desequilíbrio entre um cenário ofensivo maduro e defesas subdesenvolvidas valida ainda mais as lacunas críticas de confiabilidade e os riscos multidimensionais que a inteligência centrada em áudio enfrenta. Por fim, propomos um roteiro estratégico que defende arquiteturas de "Defesa em Profundidade", modelagem causal do mundo auditivo e engenharia de representação intrínseca para preencher a lacuna entre o desempenho empírico e uma inteligência auditiva intrinsecamente confiável. Nosso projeto foi enviado para o GitHub em https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs.

English

The foundational capabilities established by Large Language Models (LLMs) have paved the way for Multimodal Large Language Models (MLLMs), within which Large Audio Language Models (LALMs) are essential for realizing universal auditory intelligence. Despite their remarkable performance, the escalation of LALMs' capabilities has significantly outpaced the development of systemic frameworks to ensure their trustworthiness. This survey provides a comprehensive investigation into the endogenous mechanisms of LALMs, detailing the architectural innovations and alignment algorithms that facilitate emergent reasoning. Specifically, we analyze how the transition to unified end-to-end frameworks and the integration of continuous acoustic signals inherently expand the attack surface. To rigorously evaluate the risks within these paradigms, we establish a comprehensive taxonomy of trustworthiness, categorizing critical vulnerabilities such as cross-modal jailbreaking, latent acoustic backdoors, and biometric privacy leakage. We review the state-of-the-art through six analytical pillars: hallucination, robustness, safety, privacy, fairness, and authentication. The profound imbalance between a mature offensive landscape and underdeveloped defenses further validates the critical trustworthiness gaps and multidimensional risks facing audio-centric intelligence. Finally, we propose a strategic roadmap advocating for "Defense-in-Depth" architectures, causal auditory world modeling, and intrinsic representation engineering to bridge the gap between empirical performance and intrinsically trustworthy audio intelligence. Our project has been uploaded to GitHub https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs.