Пространственный перевод речи: трансляция через пространство с использованием бинауральных наушников
Spatial Speech Translation: Translating Across Space With Binaural Hearables
April 25, 2025
Авторы: Tuochao Chen, Qirui Wang, Runlin He, Shyam Gollakota
cs.AI
Аннотация
Представьте, что вы находитесь в многолюдном месте, где люди говорят на другом языке, и у вас есть наушники, которые преобразуют звуковое пространство в ваш родной язык, сохраняя при этом пространственные характеристики для всех говорящих. Мы представляем концепцию пространственного перевода речи — новое направление для наушников, которые переводят речь окружающих людей, сохраняя направление и уникальные голосовые характеристики каждого говорящего в бинауральном выводе. Для достижения этого мы решаем несколько технических задач, включая слепое разделение источников звука, локализацию, экспрессивный перевод в реальном времени и бинауральное воспроизведение, чтобы сохранить направление говорящих в переведённом аудио, обеспечивая при этом выполнение в реальном времени на процессоре Apple M2. Наше оценочное тестирование с использованием прототипа бинауральных наушников показывает, что, в отличие от существующих моделей, которые терпят неудачу при наличии помех, мы достигаем показателя BLEU до 22.01 при переводе между языками, несмотря на сильные помехи от других говорящих в окружении. Пользовательские исследования дополнительно подтверждают эффективность системы в пространственном воспроизведении переведённой речи в ранее неизученных реальных реверберирующих средах. В более широком контексте, эта работа представляет собой первый шаг к интеграции пространственного восприятия в перевод речи.
English
Imagine being in a crowded space where people speak a different language and
having hearables that transform the auditory space into your native language,
while preserving the spatial cues for all speakers. We introduce spatial speech
translation, a novel concept for hearables that translate speakers in the
wearer's environment, while maintaining the direction and unique voice
characteristics of each speaker in the binaural output. To achieve this, we
tackle several technical challenges spanning blind source separation,
localization, real-time expressive translation, and binaural rendering to
preserve the speaker directions in the translated audio, while achieving
real-time inference on the Apple M2 silicon. Our proof-of-concept evaluation
with a prototype binaural headset shows that, unlike existing models, which
fail in the presence of interference, we achieve a BLEU score of up to 22.01
when translating between languages, despite strong interference from other
speakers in the environment. User studies further confirm the system's
effectiveness in spatially rendering the translated speech in previously unseen
real-world reverberant environments. Taking a step back, this work marks the
first step towards integrating spatial perception into speech translation.Summary
AI-Generated Summary