ChatPaper.aiChatPaper

자기중심적 대화를 분리하는 능동형 청각 보조 장치

Proactive Hearing Assistants that Isolate Egocentric Conversations

November 14, 2025
저자: Guilin Hu, Malek Itani, Tuochao Chen, Shyamnath Gollakota
cs.AI

초록

사용자의 명시적 지시 없이도 대화 상대를 자동으로 식별 및 분리하는 능동형 청각 지원 시스템을 소개합니다. 우리 시스템은 자기 중심적 바이노럴 오디오를 기반으로 작동하며, 사용자의 자기 발화를 기준점으로 삼아 발화 교대 행동과 대화 역학을 활용하여 대화 상대를 추론하고 다른 사람의 음성을 억제합니다. 실시간 기기 내 운영을 위해 이중 모델 아키텍처를 제안합니다: 경량 스트리밍 모델은 12.5ms마다 실행되어 대화 상대를 저지연으로 추출하고, 더 느린 모델은 덜 빈번하게 실행되어 장기간의 대화 역학을 포착합니다. 11명의 참가자로부터 총 6.8시간의 바이노럴 자기 중심 하드웨어로 수집된 실제 2인 및 3인 대화 테스트셋에서, 다중 대화 환경에서 대화 상대를 식별 및 격리하는 일반화 성능을 확인했습니다. 본 연구는 대화 역학과 참여도에 능동적으로 적응하는 청각 지원 시스템으로 나아가는 단계를 나타냅니다. 자세한 내용은 우리 웹사이트(https://proactivehearing.cs.washington.edu/)에서 확인할 수 있습니다.
English
We introduce proactive hearing assistants that automatically identify and separate the wearer's conversation partners, without requiring explicit prompts. Our system operates on egocentric binaural audio and uses the wearer's self-speech as an anchor, leveraging turn-taking behavior and dialogue dynamics to infer conversational partners and suppress others. To enable real-time, on-device operation, we propose a dual-model architecture: a lightweight streaming model runs every 12.5 ms for low-latency extraction of the conversation partners, while a slower model runs less frequently to capture longer-range conversational dynamics. Results on real-world 2- and 3-speaker conversation test sets, collected with binaural egocentric hardware from 11 participants totaling 6.8 hours, show generalization in identifying and isolating conversational partners in multi-conversation settings. Our work marks a step toward hearing assistants that adapt proactively to conversational dynamics and engagement. More information can be found on our website: https://proactivehearing.cs.washington.edu/
PDF63December 1, 2025