Räumliche Sprachübersetzung: Übersetzen über den Raum hinweg mit binauralen Hörgeräten
Spatial Speech Translation: Translating Across Space With Binaural Hearables
April 25, 2025
Autoren: Tuochao Chen, Qirui Wang, Runlin He, Shyam Gollakota
cs.AI
Zusammenfassung
Stellen Sie sich vor, Sie befinden sich in einem überfüllten Raum, in dem Menschen eine andere Sprache sprechen, und Sie tragen Hörgeräte, die den akustischen Raum in Ihre Muttersprache übersetzen, während die räumlichen Hinweise für alle Sprecher erhalten bleiben. Wir stellen die räumliche Sprachübersetzung vor, ein neuartiges Konzept für Hörgeräte, das Sprecher in der Umgebung des Trägers übersetzt, während die Richtung und die einzigartigen Stimmmerkmale jedes Sprechers in der binauralen Ausgabe beibehalten werden. Um dies zu erreichen, bewältigen wir mehrere technische Herausforderungen, darunter blinde Quellentrennung, Lokalisierung, Echtzeit-Übersetzung mit Ausdruckskraft und binaurales Rendering, um die Sprecherrichtungen in der übersetzten Audioausgabe zu erhalten, während eine Echtzeit-Inferenz auf dem Apple M2-Silizium erreicht wird. Unsere Proof-of-Concept-Evaluierung mit einem prototypischen binauralen Headset zeigt, dass wir im Gegensatz zu bestehenden Modellen, die bei Störungen versagen, einen BLEU-Score von bis zu 22,01 erreichen, wenn wir zwischen Sprachen übersetzen, trotz starker Störungen durch andere Sprecher in der Umgebung. Benutzerstudien bestätigen weiterhin die Effektivität des Systems bei der räumlichen Darstellung der übersetzten Sprache in zuvor unbekannten, realen hallenden Umgebungen. Ein Schritt zurück betrachtet, markiert diese Arbeit den ersten Schritt zur Integration der räumlichen Wahrnehmung in die Sprachübersetzung.
English
Imagine being in a crowded space where people speak a different language and
having hearables that transform the auditory space into your native language,
while preserving the spatial cues for all speakers. We introduce spatial speech
translation, a novel concept for hearables that translate speakers in the
wearer's environment, while maintaining the direction and unique voice
characteristics of each speaker in the binaural output. To achieve this, we
tackle several technical challenges spanning blind source separation,
localization, real-time expressive translation, and binaural rendering to
preserve the speaker directions in the translated audio, while achieving
real-time inference on the Apple M2 silicon. Our proof-of-concept evaluation
with a prototype binaural headset shows that, unlike existing models, which
fail in the presence of interference, we achieve a BLEU score of up to 22.01
when translating between languages, despite strong interference from other
speakers in the environment. User studies further confirm the system's
effectiveness in spatially rendering the translated speech in previously unseen
real-world reverberant environments. Taking a step back, this work marks the
first step towards integrating spatial perception into speech translation.Summary
AI-Generated Summary