Asistentes Auditivos Proactivos que Aíslan Conversaciones Egocéntricas
Proactive Hearing Assistants that Isolate Egocentric Conversations
November 14, 2025
Autores: Guilin Hu, Malek Itani, Tuochao Chen, Shyamnath Gollakota
cs.AI
Resumen
Presentamos asistentes auditivos proactivos que identifican y separan automáticamente a los interlocutores del usuario, sin necesidad de indicaciones explícitas. Nuestro sistema opera sobre audio binaural egocéntrico y utiliza la voz propia del usuario como ancla, aprovechando el comportamiento de turnos de palabra y la dinámica del diálogo para inferir a los interlocutores y suprimir a otros. Para permitir un funcionamiento en tiempo real y en el dispositivo, proponemos una arquitectura de doble modelo: un modelo ligero de transmisión continua se ejecuta cada 12.5 ms para una extracción de baja latencia de los interlocutores, mientras que un modelo más lento se ejecuta con menos frecuencia para capturar dinámicas conversacionales de mayor alcance. Los resultados en conjuntos de prueba de conversaciones realistas con 2 y 3 hablantes, recopilados con hardware egocéntrico binaural de 11 participantes totalizando 6.8 horas, muestran una generalización en la identificación y aislamiento de interlocutores en entornos con múltiples conversaciones. Nuestro trabajo representa un paso hacia asistentes auditivos que se adaptan proactivamente a la dinámica conversacional y al compromiso interactivo. Se puede encontrar más información en nuestro sitio web: https://proactivehearing.cs.washington.edu/
English
We introduce proactive hearing assistants that automatically identify and separate the wearer's conversation partners, without requiring explicit prompts. Our system operates on egocentric binaural audio and uses the wearer's self-speech as an anchor, leveraging turn-taking behavior and dialogue dynamics to infer conversational partners and suppress others. To enable real-time, on-device operation, we propose a dual-model architecture: a lightweight streaming model runs every 12.5 ms for low-latency extraction of the conversation partners, while a slower model runs less frequently to capture longer-range conversational dynamics. Results on real-world 2- and 3-speaker conversation test sets, collected with binaural egocentric hardware from 11 participants totaling 6.8 hours, show generalization in identifying and isolating conversational partners in multi-conversation settings. Our work marks a step toward hearing assistants that adapt proactively to conversational dynamics and engagement. More information can be found on our website: https://proactivehearing.cs.washington.edu/