AAD-LLM: Comprensione Neurale della Scena Uditiva Guidata dall'Attenzione
AAD-LLM: Neural Attention-Driven Auditory Scene Understanding
February 24, 2025
Autori: Xilin Jiang, Sukru Samet Dindar, Vishal Choudhari, Stephan Bickel, Ashesh Mehta, Guy M McKhann, Adeen Flinker, Daniel Friedman, Nima Mesgarani
cs.AI
Abstract
I modelli fondazionali uditivi, inclusi i grandi modelli linguistici (LLM) uditivi, elaborano tutti gli input sonori in modo uniforme, indipendentemente dalla percezione dell'ascoltatore. Tuttavia, la percezione uditiva umana è intrinsecamente selettiva: gli ascoltatori si concentrano su specifici parlanti ignorando gli altri in scene uditive complesse. I modelli esistenti non incorporano questa selettività, limitando la loro capacità di generare risposte allineate alla percezione. Per affrontare questo problema, introduciamo la Comprensione della Scena Uditiva Informata dall'Intenzione (II-ASU) e presentiamo Auditory Attention-Driven LLM (AAD-LLM), un sistema prototipale che integra segnali cerebrali per inferire l'attenzione dell'ascoltatore. AAD-LLM estende un LLM uditivo incorporando registrazioni di elettroencefalografia intracranica (iEEG) per decodificare a quale parlante l'ascoltatore sta prestando attenzione e affinare le risposte di conseguenza. Il modello prevede prima il parlante a cui si sta prestando attenzione dall'attività neurale, quindi condiziona la generazione della risposta su questo stato attentivo inferito. Valutiamo AAD-LLM su descrizione del parlante, trascrizione ed estrazione del parlato e risposta a domande in scenari con più parlanti, con valutazioni sia oggettive che soggettive che mostrano un migliorato allineamento con l'intenzione dell'ascoltatore. Compiendo un primo passo verso l'IA uditiva consapevole dell'intenzione, questo lavoro esplora un nuovo paradigma in cui la percezione dell'ascoltatore informa l'ascolto automatico, aprendo la strada a futuri sistemi uditivi centrati sull'ascoltatore. Demo e codice disponibili: https://aad-llm.github.io.
English
Auditory foundation models, including auditory large language models (LLMs),
process all sound inputs equally, independent of listener perception. However,
human auditory perception is inherently selective: listeners focus on specific
speakers while ignoring others in complex auditory scenes. Existing models do
not incorporate this selectivity, limiting their ability to generate
perception-aligned responses. To address this, we introduce Intention-Informed
Auditory Scene Understanding (II-ASU) and present Auditory Attention-Driven LLM
(AAD-LLM), a prototype system that integrates brain signals to infer listener
attention. AAD-LLM extends an auditory LLM by incorporating intracranial
electroencephalography (iEEG) recordings to decode which speaker a listener is
attending to and refine responses accordingly. The model first predicts the
attended speaker from neural activity, then conditions response generation on
this inferred attentional state. We evaluate AAD-LLM on speaker description,
speech transcription and extraction, and question answering in multitalker
scenarios, with both objective and subjective ratings showing improved
alignment with listener intention. By taking a first step toward
intention-aware auditory AI, this work explores a new paradigm where listener
perception informs machine listening, paving the way for future
listener-centered auditory systems. Demo and code available:
https://aad-llm.github.io.