Traduction spatiale de la parole : Traduire à travers l'espace avec des écouteurs binauraux
Spatial Speech Translation: Translating Across Space With Binaural Hearables
April 25, 2025
Auteurs: Tuochao Chen, Qirui Wang, Runlin He, Shyam Gollakota
cs.AI
Résumé
Imaginez-vous dans un espace bondé où les gens parlent une langue différente, équipé d'écouteurs qui transforment l'espace sonore dans votre langue maternelle, tout en préservant les indices spatiaux pour tous les locuteurs. Nous introduisons la traduction vocale spatiale, un concept novateur pour les écouteurs qui traduisent les locuteurs dans l'environnement de l'utilisateur, tout en conservant la direction et les caractéristiques vocales uniques de chaque locuteur dans le rendu binaural. Pour y parvenir, nous relevons plusieurs défis techniques, allant de la séparation aveugle des sources, la localisation, la traduction expressive en temps réel, au rendu binaural pour préserver les directions des locuteurs dans l'audio traduit, tout en réalisant une inférence en temps réel sur le silicium Apple M2. Notre évaluation de preuve de concept avec un prototype de casque binaural montre que, contrairement aux modèles existants qui échouent en présence d'interférences, nous atteignons un score BLEU allant jusqu'à 22,01 lors de la traduction entre langues, malgré de fortes interférences d'autres locuteurs dans l'environnement. Des études utilisateurs confirment en outre l'efficacité du système dans le rendu spatial de la parole traduite dans des environnements réels réverbérants jamais rencontrés auparavant. En prenant du recul, ce travail marque la première étape vers l'intégration de la perception spatiale dans la traduction vocale.
English
Imagine being in a crowded space where people speak a different language and
having hearables that transform the auditory space into your native language,
while preserving the spatial cues for all speakers. We introduce spatial speech
translation, a novel concept for hearables that translate speakers in the
wearer's environment, while maintaining the direction and unique voice
characteristics of each speaker in the binaural output. To achieve this, we
tackle several technical challenges spanning blind source separation,
localization, real-time expressive translation, and binaural rendering to
preserve the speaker directions in the translated audio, while achieving
real-time inference on the Apple M2 silicon. Our proof-of-concept evaluation
with a prototype binaural headset shows that, unlike existing models, which
fail in the presence of interference, we achieve a BLEU score of up to 22.01
when translating between languages, despite strong interference from other
speakers in the environment. User studies further confirm the system's
effectiveness in spatially rendering the translated speech in previously unseen
real-world reverberant environments. Taking a step back, this work marks the
first step towards integrating spatial perception into speech translation.Summary
AI-Generated Summary