ChatPaper.aiChatPaper

Proactieve Hoorassistenten die Egocentrische Gesprekken Isoleren

Proactive Hearing Assistants that Isolate Egocentric Conversations

November 14, 2025
Auteurs: Guilin Hu, Malek Itani, Tuochao Chen, Shyamnath Gollakota
cs.AI

Samenvatting

Wij introduceren proactieve hoortoestellen die automatisch de gesprekspartners van de drager identificeren en scheiden, zonder expliciete aanwijzingen te vereisen. Ons systeem werkt op egocentrisch binauraal audio en gebruikt de eigen spraak van de drager als anker, waarbij het beurtwisselingsgedrag en dialoogdynamiek benut om gesprekspartners af te leiden en anderen te onderdrukken. Om realtime werking op het apparaat mogelijk te maken, stellen we een dual-model architectuur voor: een lichtgewicht streaming model draait elke 12,5 ms voor latentiearme extractie van de gesprekspartners, terwijl een langzamer model minder frequent draait om grootschaligere gespreksdynamiek vast te leggen. Resultaten op realistische testverzamelingen van 2- en 3-sprekersgesprekken, verzameld met binaurale egocentrische hardware van 11 deelnemers in totaal 6,8 uur, tonen generalisatie in het identificeren en isoleren van gesprekspartners in omgevingen met meerdere gesprekken. Ons werk markeert een stap richting hoortoestellen die proactief aanpassen aan gespreksdynamiek en betrokkenheid. Meer informatie is te vinden op onze website: https://proactivehearing.cs.washington.edu/
English
We introduce proactive hearing assistants that automatically identify and separate the wearer's conversation partners, without requiring explicit prompts. Our system operates on egocentric binaural audio and uses the wearer's self-speech as an anchor, leveraging turn-taking behavior and dialogue dynamics to infer conversational partners and suppress others. To enable real-time, on-device operation, we propose a dual-model architecture: a lightweight streaming model runs every 12.5 ms for low-latency extraction of the conversation partners, while a slower model runs less frequently to capture longer-range conversational dynamics. Results on real-world 2- and 3-speaker conversation test sets, collected with binaural egocentric hardware from 11 participants totaling 6.8 hours, show generalization in identifying and isolating conversational partners in multi-conversation settings. Our work marks a step toward hearing assistants that adapt proactively to conversational dynamics and engagement. More information can be found on our website: https://proactivehearing.cs.washington.edu/
PDF63December 1, 2025