AAD-LLM: Compreensão de Cenas Auditivas Orientada por Atenção Neural
AAD-LLM: Neural Attention-Driven Auditory Scene Understanding
February 24, 2025
Autores: Xilin Jiang, Sukru Samet Dindar, Vishal Choudhari, Stephan Bickel, Ashesh Mehta, Guy M McKhann, Adeen Flinker, Daniel Friedman, Nima Mesgarani
cs.AI
Resumo
Modelos de fundação auditiva, incluindo grandes modelos de linguagem auditivos (LLMs), processam todas as entradas sonoras de forma igual, independentemente da percepção do ouvinte. No entanto, a percepção auditiva humana é inerentemente seletiva: os ouvintes se concentram em falantes específicos enquanto ignoram outros em cenas auditivas complexas. Os modelos existentes não incorporam essa seletividade, limitando sua capacidade de gerar respostas alinhadas com a percepção. Para abordar isso, introduzimos o Entendimento de Cena Auditiva Informado por Intenção (II-ASU) e apresentamos o Auditory Attention-Driven LLM (AAD-LLM), um sistema protótipo que integra sinais cerebrais para inferir a atenção do ouvinte. O AAD-LLM estende um LLM auditivo ao incorporar gravações de eletroencefalografia intracraniana (iEEG) para decodificar qual falante o ouvinte está atendendo e refinar as respostas de acordo. O modelo primeiro prevê o falante atendido a partir da atividade neural, em seguida, condiciona a geração de respostas com base nesse estado atencional inferido. Avaliamos o AAD-LLM em descrição de falantes, transcrição e extração de fala, e resposta a perguntas em cenários com múltiplos falantes, com avaliações objetivas e subjetivas mostrando uma melhoria no alinhamento com a intenção do ouvinte. Ao dar um primeiro passo em direção à IA auditiva consciente da intenção, este trabalho explora um novo paradigma em que a percepção do ouvinte informa a escuta da máquina, abrindo caminho para futuros sistemas auditivos centrados no ouvinte. Demonstração e código disponíveis em: https://aad-llm.github.io.
English
Auditory foundation models, including auditory large language models (LLMs),
process all sound inputs equally, independent of listener perception. However,
human auditory perception is inherently selective: listeners focus on specific
speakers while ignoring others in complex auditory scenes. Existing models do
not incorporate this selectivity, limiting their ability to generate
perception-aligned responses. To address this, we introduce Intention-Informed
Auditory Scene Understanding (II-ASU) and present Auditory Attention-Driven LLM
(AAD-LLM), a prototype system that integrates brain signals to infer listener
attention. AAD-LLM extends an auditory LLM by incorporating intracranial
electroencephalography (iEEG) recordings to decode which speaker a listener is
attending to and refine responses accordingly. The model first predicts the
attended speaker from neural activity, then conditions response generation on
this inferred attentional state. We evaluate AAD-LLM on speaker description,
speech transcription and extraction, and question answering in multitalker
scenarios, with both objective and subjective ratings showing improved
alignment with listener intention. By taking a first step toward
intention-aware auditory AI, this work explores a new paradigm where listener
perception informs machine listening, paving the way for future
listener-centered auditory systems. Demo and code available:
https://aad-llm.github.io.Summary
AI-Generated Summary