ChatPaper.aiChatPaper

AAD-LLM: Neuronale Aufmerksamkeitsgesteuerte Auditive Szenenverständigung

AAD-LLM: Neural Attention-Driven Auditory Scene Understanding

February 24, 2025
Autoren: Xilin Jiang, Sukru Samet Dindar, Vishal Choudhari, Stephan Bickel, Ashesh Mehta, Guy M McKhann, Adeen Flinker, Daniel Friedman, Nima Mesgarani
cs.AI

Zusammenfassung

Auditive Foundation Models, einschließlich auditiver Large Language Models (LLMs), verarbeiten alle Schalleingaben gleichwertig, unabhängig von der Wahrnehmung des Zuhörers. Die menschliche Hörwahrnehmung ist jedoch von Natur aus selektiv: Zuhörer konzentrieren sich auf bestimmte Sprecher und ignorieren andere in komplexen auditiven Szenen. Bestehende Modelle berücksichtigen diese Selektivität nicht, was ihre Fähigkeit einschränkt, wahrnehmungsgerechte Antworten zu generieren. Um dies zu adressieren, führen wir Intention-Informed Auditory Scene Understanding (II-ASU) ein und präsentieren Auditory Attention-Driven LLM (AAD-LLM), ein Prototypsystem, das Gehirnsignale integriert, um die Aufmerksamkeit des Zuhörers abzuleiten. AAD-LLM erweitert ein auditives LLM, indem es intrakranielle Elektroenzephalographie (iEEG)-Aufnahmen einbezieht, um zu entschlüsseln, welchem Sprecher der Zuhörer folgt, und die Antworten entsprechend anzupassen. Das Modell sagt zunächst den beachteten Sprecher aus der neuronalen Aktivität voraus und passt dann die Antwortgenerierung an diesen abgeleiteten Aufmerksamkeitszustand an. Wir evaluieren AAD-LLM in Bezug auf Sprecherbeschreibung, Sprachtran-skription und -extraktion sowie Fragebeantwortung in Mehrsprecherszenarien, wobei sowohl objektive als auch subjektive Bewertungen eine verbesserte Ausrichtung auf die Absicht des Zuhörers zeigen. Indem wir einen ersten Schritt in Richtung absichtsbewusster auditiver KI machen, erkundet diese Arbeit ein neues Paradigma, bei dem die Wahrnehmung des Zuhörers das maschinelle Hören informiert, und ebnet den Weg für zukünftige zuhörerzentrierte auditive Systeme. Demo und Code verfügbar: https://aad-llm.github.io.
English
Auditory foundation models, including auditory large language models (LLMs), process all sound inputs equally, independent of listener perception. However, human auditory perception is inherently selective: listeners focus on specific speakers while ignoring others in complex auditory scenes. Existing models do not incorporate this selectivity, limiting their ability to generate perception-aligned responses. To address this, we introduce Intention-Informed Auditory Scene Understanding (II-ASU) and present Auditory Attention-Driven LLM (AAD-LLM), a prototype system that integrates brain signals to infer listener attention. AAD-LLM extends an auditory LLM by incorporating intracranial electroencephalography (iEEG) recordings to decode which speaker a listener is attending to and refine responses accordingly. The model first predicts the attended speaker from neural activity, then conditions response generation on this inferred attentional state. We evaluate AAD-LLM on speaker description, speech transcription and extraction, and question answering in multitalker scenarios, with both objective and subjective ratings showing improved alignment with listener intention. By taking a first step toward intention-aware auditory AI, this work explores a new paradigm where listener perception informs machine listening, paving the way for future listener-centered auditory systems. Demo and code available: https://aad-llm.github.io.

Summary

AI-Generated Summary

PDF53February 26, 2025