Assistants auditifs proactifs pour l'isolation des conversations égocentriques
Proactive Hearing Assistants that Isolate Egocentric Conversations
November 14, 2025
papers.authors: Guilin Hu, Malek Itani, Tuochao Chen, Shyamnath Gollakota
cs.AI
papers.abstract
Nous présentons des assistants auditifs proactifs qui identifient et séparent automatiquement les interlocuteurs de l'utilisateur, sans nécessiter d'invites explicites. Notre système fonctionne sur des signaux audio binauriculaires égocentriques et utilise l'auto-parole de l'utilisateur comme point d'ancrage, exploitant les tours de parole et la dynamique conversationnelle pour inférer les interlocuteurs et supprimer les autres voix. Pour permettre un fonctionnement en temps réel sur appareil, nous proposons une architecture à double modèle : un modèle léger en flux continu s'exécute toutes les 12,5 ms pour une extraction à faible latence des interlocuteurs, tandis qu'un modèle plus lent s'exécute moins fréquemment pour capturer la dynamique conversationnelle à plus long terme. Les résultats sur des ensembles de test de conversations réelles à 2 et 3 locuteurs, collectés avec un matériel binauriculaire égocentrique auprès de 11 participants totalisant 6,8 heures, montrent une généralisation de l'identification et de l'isolation des interlocuteurs dans des environnements multi-conversations. Notre travail représente une étape vers des assistants auditifs qui s'adaptent proactivement à la dynamique conversationnelle et à l'engagement. Plus d'informations sont disponibles sur notre site web : https://proactivehearing.cs.washington.edu/
English
We introduce proactive hearing assistants that automatically identify and separate the wearer's conversation partners, without requiring explicit prompts. Our system operates on egocentric binaural audio and uses the wearer's self-speech as an anchor, leveraging turn-taking behavior and dialogue dynamics to infer conversational partners and suppress others. To enable real-time, on-device operation, we propose a dual-model architecture: a lightweight streaming model runs every 12.5 ms for low-latency extraction of the conversation partners, while a slower model runs less frequently to capture longer-range conversational dynamics. Results on real-world 2- and 3-speaker conversation test sets, collected with binaural egocentric hardware from 11 participants totaling 6.8 hours, show generalization in identifying and isolating conversational partners in multi-conversation settings. Our work marks a step toward hearing assistants that adapt proactively to conversational dynamics and engagement. More information can be found on our website: https://proactivehearing.cs.washington.edu/