自己中心的な会話を分離する能動的聴取補助システム
Proactive Hearing Assistants that Isolate Egocentric Conversations
November 14, 2025
著者: Guilin Hu, Malek Itani, Tuochao Chen, Shyamnath Gollakota
cs.AI
要旨
本論文では、明示的な指示を必要とせず、装着者の対話相手を自動的に識別・分離する能動的補聴システムを提案する。本システムはエゴセントリック双耳音響を入力とし、装着者の自身の音声をアンカーとして利用。話者交替行動と対話ダイナミクスを活用して対話相手を推定し、それ以外の音声を抑制する。リアルタイムのオンデバイス動作を実現するため、二重モデルアーキテクチャを採用:軽量なストリーミングモデルを12.5ms毎に実行して低遅延で対話相手を抽出し、低速モデルは低頻度で動作して長期的な対話ダイナミクスを捕捉する。11名の被験者から収集した合計6.8時間の双耳エゴセントリックハードウェア実データを用いた、現実世界の2人/3人会話テストセットによる評価では、複数会話環境における対話相手の識別・分離の一般化性能が確認された。本研究は、対話ダイナミクスと関与状況に能動的に適応する補聴システムへの第一歩を示すものである。詳細はプロジェクトウェブサイト(https://proactivehearing.cs.washington.edu/)を参照されたい。
English
We introduce proactive hearing assistants that automatically identify and separate the wearer's conversation partners, without requiring explicit prompts. Our system operates on egocentric binaural audio and uses the wearer's self-speech as an anchor, leveraging turn-taking behavior and dialogue dynamics to infer conversational partners and suppress others. To enable real-time, on-device operation, we propose a dual-model architecture: a lightweight streaming model runs every 12.5 ms for low-latency extraction of the conversation partners, while a slower model runs less frequently to capture longer-range conversational dynamics. Results on real-world 2- and 3-speaker conversation test sets, collected with binaural egocentric hardware from 11 participants totaling 6.8 hours, show generalization in identifying and isolating conversational partners in multi-conversation settings. Our work marks a step toward hearing assistants that adapt proactively to conversational dynamics and engagement. More information can be found on our website: https://proactivehearing.cs.washington.edu/