Assistenti Uditivi Proattivi per l'Isolamento di Conversazioni Egocentriche
Proactive Hearing Assistants that Isolate Egocentric Conversations
November 14, 2025
Autori: Guilin Hu, Malek Itani, Tuochao Chen, Shyamnath Gollakota
cs.AI
Abstract
Introduciamo assistenti acustici proattivi che identificano e separano automaticamente gli interlocutori dell'utente, senza richiedere comandi espliciti. Il nostro sistema opera su audio binaurale egocentrico e utilizza l'auto-segnalazione vocale dell'utente come ancoraggio, sfruttando il comportamento di alternanza dei turni e le dinamiche dialogiche per inferire gli interlocutori e sopprimere gli altri. Per abilitare un funzionamento in tempo reale e su dispositivo, proponiamo un'architettura a doppio modello: un modello leggero in streaming opera ogni 12,5 ms per l'estrazione a bassa latenza degli interlocutori, mentre un modello più lento viene eseguito con minore frequenza per catturare le dinamiche conversazionali a lungo raggio. I risultati su set di test di conversazioni reali con 2 e 3 parlanti, raccolti con hardware egocentrico binaurale da 11 partecipanti per un totale di 6,8 ore, dimostrano una generalizzazione nell'identificazione e isolamento degli interlocutori in ambienti con conversazioni multiple. Il nostro lavoro rappresenta un passo verso assistenti acustici che si adattano proattivamente alle dinamiche conversazionali e all'impegno comunicativo. Ulteriori informazioni sono disponibili sul nostro sito web: https://proactivehearing.cs.washington.edu/
English
We introduce proactive hearing assistants that automatically identify and separate the wearer's conversation partners, without requiring explicit prompts. Our system operates on egocentric binaural audio and uses the wearer's self-speech as an anchor, leveraging turn-taking behavior and dialogue dynamics to infer conversational partners and suppress others. To enable real-time, on-device operation, we propose a dual-model architecture: a lightweight streaming model runs every 12.5 ms for low-latency extraction of the conversation partners, while a slower model runs less frequently to capture longer-range conversational dynamics. Results on real-world 2- and 3-speaker conversation test sets, collected with binaural egocentric hardware from 11 participants totaling 6.8 hours, show generalization in identifying and isolating conversational partners in multi-conversation settings. Our work marks a step toward hearing assistants that adapt proactively to conversational dynamics and engagement. More information can be found on our website: https://proactivehearing.cs.washington.edu/