AAD-LLM : Compréhension de scènes auditives pilotée par l'attention neuronale
AAD-LLM: Neural Attention-Driven Auditory Scene Understanding
February 24, 2025
Auteurs: Xilin Jiang, Sukru Samet Dindar, Vishal Choudhari, Stephan Bickel, Ashesh Mehta, Guy M McKhann, Adeen Flinker, Daniel Friedman, Nima Mesgarani
cs.AI
Résumé
Les modèles de base auditifs, y compris les grands modèles de langage auditifs (LLM), traitent toutes les entrées sonores de manière égale, indépendamment de la perception de l'auditeur. Cependant, la perception auditive humaine est intrinsèquement sélective : les auditeurs se concentrent sur des locuteurs spécifiques tout en ignorant les autres dans des scènes auditives complexes. Les modèles existants n'intègrent pas cette sélectivité, ce qui limite leur capacité à générer des réponses alignées sur la perception. Pour remédier à cela, nous introduisons la compréhension de scène auditive informée par l'intention (II-ASU) et présentons Auditory Attention-Driven LLM (AAD-LLM), un prototype de système qui intègre des signaux cérébraux pour inférer l'attention de l'auditeur. AAD-LLM étend un LLM auditif en incorporant des enregistrements d'électroencéphalographie intracrânienne (iEEG) pour décoder à quel locateur l'auditeur prête attention et affiner les réponses en conséquence. Le modèle prédit d'abord le locuteur suivi à partir de l'activité neurale, puis conditionne la génération de réponses sur cet état attentionnel inféré. Nous évaluons AAD-LLM sur la description de locuteurs, la transcription et l'extraction de la parole, ainsi que la réponse à des questions dans des scénarios à plusieurs locuteurs, avec des évaluations objectives et subjectives montrant une meilleure alignement avec l'intention de l'auditeur. En faisant un premier pas vers une IA auditive consciente de l'intention, ce travail explore un nouveau paradigme où la perception de l'auditeur informe l'écoute machine, ouvrant la voie à de futurs systèmes auditifs centrés sur l'auditeur. Démo et code disponibles : https://aad-llm.github.io.
English
Auditory foundation models, including auditory large language models (LLMs),
process all sound inputs equally, independent of listener perception. However,
human auditory perception is inherently selective: listeners focus on specific
speakers while ignoring others in complex auditory scenes. Existing models do
not incorporate this selectivity, limiting their ability to generate
perception-aligned responses. To address this, we introduce Intention-Informed
Auditory Scene Understanding (II-ASU) and present Auditory Attention-Driven LLM
(AAD-LLM), a prototype system that integrates brain signals to infer listener
attention. AAD-LLM extends an auditory LLM by incorporating intracranial
electroencephalography (iEEG) recordings to decode which speaker a listener is
attending to and refine responses accordingly. The model first predicts the
attended speaker from neural activity, then conditions response generation on
this inferred attentional state. We evaluate AAD-LLM on speaker description,
speech transcription and extraction, and question answering in multitalker
scenarios, with both objective and subjective ratings showing improved
alignment with listener intention. By taking a first step toward
intention-aware auditory AI, this work explores a new paradigm where listener
perception informs machine listening, paving the way for future
listener-centered auditory systems. Demo and code available:
https://aad-llm.github.io.Summary
AI-Generated Summary