ChatPaper.aiChatPaper

Проактивные слуховые ассистенты для изоляции эгоцентричных разговоров

Proactive Hearing Assistants that Isolate Egocentric Conversations

November 14, 2025
Авторы: Guilin Hu, Malek Itani, Tuochao Chen, Shyamnath Gollakota
cs.AI

Аннотация

Мы представляем проактивные слуховые ассистенты, которые автоматически идентифицируют и выделяют собеседников пользователя без явных команд. Наша система работает на эгоцентричном бинауральном аудио и использует собственную речь пользователя в качестве якоря, применяя анализ очередности реплик и динамики диалога для определения собеседников и подавления остальных голосов. Для обеспечения работы в реальном времени на устройстве мы предлагаем двухмодельную архитектуру: облегченная потоковая модель запускается каждые 12,5 мс для низколатентного выделения собеседников, тогда как более медленная модель работает реже для захвата долгосрочной динамики беседы. Результаты на реальных тестовых наборах диалогов с 2 и 3 участниками, записанных с помощью бинаурального эгоцентричного оборудования от 11 участников (общей продолжительностью 6,8 часов), демонстрируют обобщающую способность системы в идентификации и изоляции собеседников в условиях множественных бесед. Наша работа представляет шаг к созданию слуховых ассистентов, адаптирующихся к динамике разговора и вовлеченности. Дополнительная информация доступна на нашем сайте: https://proactivehearing.cs.washington.edu/
English
We introduce proactive hearing assistants that automatically identify and separate the wearer's conversation partners, without requiring explicit prompts. Our system operates on egocentric binaural audio and uses the wearer's self-speech as an anchor, leveraging turn-taking behavior and dialogue dynamics to infer conversational partners and suppress others. To enable real-time, on-device operation, we propose a dual-model architecture: a lightweight streaming model runs every 12.5 ms for low-latency extraction of the conversation partners, while a slower model runs less frequently to capture longer-range conversational dynamics. Results on real-world 2- and 3-speaker conversation test sets, collected with binaural egocentric hardware from 11 participants totaling 6.8 hours, show generalization in identifying and isolating conversational partners in multi-conversation settings. Our work marks a step toward hearing assistants that adapt proactively to conversational dynamics and engagement. More information can be found on our website: https://proactivehearing.cs.washington.edu/
PDF63December 1, 2025