공간 음성 번역: 바이노럴 헤어러블을 통한 공간 간 번역
Spatial Speech Translation: Translating Across Space With Binaural Hearables
April 25, 2025
저자: Tuochao Chen, Qirui Wang, Runlin He, Shyam Gollakota
cs.AI
초록
다른 언어를 사용하는 사람들로 붐비는 공간에 있다고 상상해 보세요. 그런데 귀에 착용하는 기기가 모든 화자의 공간적 단서를 유지하면서 청각 공간을 당신의 모국어로 변환해 준다면 어떨까요? 우리는 '공간 음성 번역'이라는 새로운 개념을 소개합니다. 이는 착용자의 주변 환경에서 화자들의 음성을 번역하면서도, 양이 출력에서 각 화자의 방향과 독특한 음성 특성을 유지하는 헤어러블 기술입니다. 이를 실현하기 위해 우리는 블라인드 소스 분리, 위치 추정, 실시간 표현적 번역, 그리고 번역된 오디오에서 화자 방향을 유지하는 양이 렌더링 등 여러 기술적 과제를 해결했습니다. 또한 Apple M2 실리콘에서 실시간 추론을 달성했습니다. 프로토타입 양이 헤드셋을 사용한 개념 검증 평가에서, 기존 모델들이 간섭 상황에서 실패하는 것과 달리, 우리는 환경 내 다른 화자들의 강한 간섭에도 불구하고 언어 간 번역에서 최대 22.01의 BLEU 점수를 달성했습니다. 사용자 연구는 또한 이 시스템이 이전에 경험하지 못한 실제 리버브 환경에서 번역된 음성을 공간적으로 렌더링하는 데 효과적임을 확인했습니다. 한 걸음 물러서 보면, 이 작업은 음성 번역에 공간적 인지를 통합하는 첫 번째 단계를 표시합니다.
English
Imagine being in a crowded space where people speak a different language and
having hearables that transform the auditory space into your native language,
while preserving the spatial cues for all speakers. We introduce spatial speech
translation, a novel concept for hearables that translate speakers in the
wearer's environment, while maintaining the direction and unique voice
characteristics of each speaker in the binaural output. To achieve this, we
tackle several technical challenges spanning blind source separation,
localization, real-time expressive translation, and binaural rendering to
preserve the speaker directions in the translated audio, while achieving
real-time inference on the Apple M2 silicon. Our proof-of-concept evaluation
with a prototype binaural headset shows that, unlike existing models, which
fail in the presence of interference, we achieve a BLEU score of up to 22.01
when translating between languages, despite strong interference from other
speakers in the environment. User studies further confirm the system's
effectiveness in spatially rendering the translated speech in previously unseen
real-world reverberant environments. Taking a step back, this work marks the
first step towards integrating spatial perception into speech translation.Summary
AI-Generated Summary