ChatPaper.aiChatPaper

Proaktive Hörassistenten zur Isolierung egozentrischer Gespräche

Proactive Hearing Assistants that Isolate Egocentric Conversations

November 14, 2025
papers.authors: Guilin Hu, Malek Itani, Tuochao Chen, Shyamnath Gollakota
cs.AI

papers.abstract

Wir stellen proaktive Hörassistenten vor, die die Gesprächspartner des Nutzers automatisch identifizieren und separieren, ohne explizite Aufforderungen zu benötigen. Unser System verarbeitet egozentrische binaurale Audiodaten und nutzt die Eigenstimme des Nutzers als Ankerpunkt, indem es Sprecherwechsel und Dialogdynamik ausnutzt, um Gesprächspartner zu inferieren und andere Stimmen zu unterdrücken. Um Echtzeitverarbeitung direkt auf dem Endgerät zu ermöglichen, schlagen wir eine Dual-Model-Architektur vor: Ein leichtes Streaming-Modell läuft alle 12,5 ms für eine latenzarme Extraktion der Gesprächspartner, während ein langsameres Modell seltener läuft, um längerfristige Konversationsdynamiken zu erfassen. Ergebnisse auf realen Testdatensätzen mit 2 und 3 Sprechern – erhoben mit binauraler Egozentrik-Hardware von 11 Teilnehmern mit insgesamt 6,8 Stunden Daten – zeigen eine Generalisierungsfähigkeit bei der Identifikation und Isolierung von Gesprächspartnern in Multi-Konversations-Szenarien. Unsere Arbeit markiert einen Schritt hin zu Hörassistenten, die sich proaktiv an Konversationsdynamik und Gesprächsbeteiligung anpassen. Weitere Informationen finden Sie auf unserer Website: https://proactivehearing.cs.washington.edu/
English
We introduce proactive hearing assistants that automatically identify and separate the wearer's conversation partners, without requiring explicit prompts. Our system operates on egocentric binaural audio and uses the wearer's self-speech as an anchor, leveraging turn-taking behavior and dialogue dynamics to infer conversational partners and suppress others. To enable real-time, on-device operation, we propose a dual-model architecture: a lightweight streaming model runs every 12.5 ms for low-latency extraction of the conversation partners, while a slower model runs less frequently to capture longer-range conversational dynamics. Results on real-world 2- and 3-speaker conversation test sets, collected with binaural egocentric hardware from 11 participants totaling 6.8 hours, show generalization in identifying and isolating conversational partners in multi-conversation settings. Our work marks a step toward hearing assistants that adapt proactively to conversational dynamics and engagement. More information can be found on our website: https://proactivehearing.cs.washington.edu/
PDF63December 1, 2025