AAD-LLM: Comprensione Neurale della Scena Uditiva Guidata dall'Attenzione

Abstract

I modelli fondazionali uditivi, inclusi i grandi modelli linguistici (LLM) uditivi, elaborano tutti gli input sonori in modo uniforme, indipendentemente dalla percezione dell'ascoltatore. Tuttavia, la percezione uditiva umana è intrinsecamente selettiva: gli ascoltatori si concentrano su specifici parlanti ignorando gli altri in scene uditive complesse. I modelli esistenti non incorporano questa selettività, limitando la loro capacità di generare risposte allineate alla percezione. Per affrontare questo problema, introduciamo la Comprensione della Scena Uditiva Informata dall'Intenzione (II-ASU) e presentiamo Auditory Attention-Driven LLM (AAD-LLM), un sistema prototipale che integra segnali cerebrali per inferire l'attenzione dell'ascoltatore. AAD-LLM estende un LLM uditivo incorporando registrazioni di elettroencefalografia intracranica (iEEG) per decodificare a quale parlante l'ascoltatore sta prestando attenzione e affinare le risposte di conseguenza. Il modello prevede prima il parlante a cui si sta prestando attenzione dall'attività neurale, quindi condiziona la generazione della risposta su questo stato attentivo inferito. Valutiamo AAD-LLM su descrizione del parlante, trascrizione ed estrazione del parlato e risposta a domande in scenari con più parlanti, con valutazioni sia oggettive che soggettive che mostrano un migliorato allineamento con l'intenzione dell'ascoltatore. Compiendo un primo passo verso l'IA uditiva consapevole dell'intenzione, questo lavoro esplora un nuovo paradigma in cui la percezione dell'ascoltatore informa l'ascolto automatico, aprendo la strada a futuri sistemi uditivi centrati sull'ascoltatore. Demo e codice disponibili: https://aad-llm.github.io.

English

Auditory foundation models, including auditory large language models (LLMs), process all sound inputs equally, independent of listener perception. However, human auditory perception is inherently selective: listeners focus on specific speakers while ignoring others in complex auditory scenes. Existing models do not incorporate this selectivity, limiting their ability to generate perception-aligned responses. To address this, we introduce Intention-Informed Auditory Scene Understanding (II-ASU) and present Auditory Attention-Driven LLM (AAD-LLM), a prototype system that integrates brain signals to infer listener attention. AAD-LLM extends an auditory LLM by incorporating intracranial electroencephalography (iEEG) recordings to decode which speaker a listener is attending to and refine responses accordingly. The model first predicts the attended speaker from neural activity, then conditions response generation on this inferred attentional state. We evaluate AAD-LLM on speaker description, speech transcription and extraction, and question answering in multitalker scenarios, with both objective and subjective ratings showing improved alignment with listener intention. By taking a first step toward intention-aware auditory AI, this work explores a new paradigm where listener perception informs machine listening, paving the way for future listener-centered auditory systems. Demo and code available: https://aad-llm.github.io.

AAD-LLM: Comprensione Neurale della Scena Uditiva Guidata dall'Attenzione

AAD-LLM: Neural Attention-Driven Auditory Scene Understanding

Abstract

Support