Assistentes Auditivos Proativos que Isolam Conversas Egocêntricas
Proactive Hearing Assistants that Isolate Egocentric Conversations
November 14, 2025
Autores: Guilin Hu, Malek Itani, Tuochao Chen, Shyamnath Gollakota
cs.AI
Resumo
Apresentamos assistentes auditivos proativos que identificam e separam automaticamente os interlocutores do usuário, sem exigir comandos explícitos. Nosso sistema opera em áudio binaural egocêntrico e utiliza a fala do próprio usuário como âncora, aproveitando o comportamento de alternância de turnos e a dinâmica do diálogo para inferir os interlocutores e suprimir os demais. Para permitir operação em tempo real e no dispositivo, propomos uma arquitetura de modelo duplo: um modelo leve de streaming é executado a cada 12,5 ms para extração de baixa latência dos interlocutores, enquanto um modelo mais lento é executado com menos frequência para capturar dinâmicas conversacionais de longo alcance. Resultados em conjuntos de teste de conversas reais com 2 e 3 locutores, coletados com hardware egocêntrico binaural de 11 participantes totalizando 6,8 horas, demonstram generalização na identificação e isolamento de interlocutores em ambientes com múltiplas conversas. Nosso trabalho representa um passo em direção a assistentes auditivos que se adaptam proativamente à dinâmica conversacional e ao engajamento. Mais informações podem ser encontradas em nosso website: https://proactivehearing.cs.washington.edu/
English
We introduce proactive hearing assistants that automatically identify and separate the wearer's conversation partners, without requiring explicit prompts. Our system operates on egocentric binaural audio and uses the wearer's self-speech as an anchor, leveraging turn-taking behavior and dialogue dynamics to infer conversational partners and suppress others. To enable real-time, on-device operation, we propose a dual-model architecture: a lightweight streaming model runs every 12.5 ms for low-latency extraction of the conversation partners, while a slower model runs less frequently to capture longer-range conversational dynamics. Results on real-world 2- and 3-speaker conversation test sets, collected with binaural egocentric hardware from 11 participants totaling 6.8 hours, show generalization in identifying and isolating conversational partners in multi-conversation settings. Our work marks a step toward hearing assistants that adapt proactively to conversational dynamics and engagement. More information can be found on our website: https://proactivehearing.cs.washington.edu/