AAD-LLM: Compreensão de Cenas Auditivas Orientada por Atenção Neural

Resumo

Modelos de fundação auditiva, incluindo grandes modelos de linguagem auditivos (LLMs), processam todas as entradas sonoras de forma igual, independentemente da percepção do ouvinte. No entanto, a percepção auditiva humana é inerentemente seletiva: os ouvintes se concentram em falantes específicos enquanto ignoram outros em cenas auditivas complexas. Os modelos existentes não incorporam essa seletividade, limitando sua capacidade de gerar respostas alinhadas com a percepção. Para abordar isso, introduzimos o Entendimento de Cena Auditiva Informado por Intenção (II-ASU) e apresentamos o Auditory Attention-Driven LLM (AAD-LLM), um sistema protótipo que integra sinais cerebrais para inferir a atenção do ouvinte. O AAD-LLM estende um LLM auditivo ao incorporar gravações de eletroencefalografia intracraniana (iEEG) para decodificar qual falante o ouvinte está atendendo e refinar as respostas de acordo. O modelo primeiro prevê o falante atendido a partir da atividade neural, em seguida, condiciona a geração de respostas com base nesse estado atencional inferido. Avaliamos o AAD-LLM em descrição de falantes, transcrição e extração de fala, e resposta a perguntas em cenários com múltiplos falantes, com avaliações objetivas e subjetivas mostrando uma melhoria no alinhamento com a intenção do ouvinte. Ao dar um primeiro passo em direção à IA auditiva consciente da intenção, este trabalho explora um novo paradigma em que a percepção do ouvinte informa a escuta da máquina, abrindo caminho para futuros sistemas auditivos centrados no ouvinte. Demonstração e código disponíveis em: https://aad-llm.github.io.

English

Auditory foundation models, including auditory large language models (LLMs), process all sound inputs equally, independent of listener perception. However, human auditory perception is inherently selective: listeners focus on specific speakers while ignoring others in complex auditory scenes. Existing models do not incorporate this selectivity, limiting their ability to generate perception-aligned responses. To address this, we introduce Intention-Informed Auditory Scene Understanding (II-ASU) and present Auditory Attention-Driven LLM (AAD-LLM), a prototype system that integrates brain signals to infer listener attention. AAD-LLM extends an auditory LLM by incorporating intracranial electroencephalography (iEEG) recordings to decode which speaker a listener is attending to and refine responses accordingly. The model first predicts the attended speaker from neural activity, then conditions response generation on this inferred attentional state. We evaluate AAD-LLM on speaker description, speech transcription and extraction, and question answering in multitalker scenarios, with both objective and subjective ratings showing improved alignment with listener intention. By taking a first step toward intention-aware auditory AI, this work explores a new paradigm where listener perception informs machine listening, paving the way for future listener-centered auditory systems. Demo and code available: https://aad-llm.github.io.

AAD-LLM: Compreensão de Cenas Auditivas Orientada por Atenção Neural

AAD-LLM: Neural Attention-Driven Auditory Scene Understanding

Resumo

Support