Traduzione Spaziale del Parlato: Tradurre Attraverso lo Spazio con Dispositivi Binaurali Indossabili
Spatial Speech Translation: Translating Across Space With Binaural Hearables
April 25, 2025
Autori: Tuochao Chen, Qirui Wang, Runlin He, Shyam Gollakota
cs.AI
Abstract
Immaginate di trovarvi in uno spazio affollato dove le persone parlano una lingua diversa e di avere dispositivi auricolari che trasformano lo spazio acustico nella vostra lingua madre, preservando al contempo gli indizi spaziali per tutti i parlanti. Introduciamo la traduzione vocale spaziale, un concetto innovativo per dispositivi auricolari che traducono i parlanti nell'ambiente dell'utente, mantenendo la direzione e le caratteristiche vocali uniche di ciascun parlante nell'output binaurale. Per raggiungere questo obiettivo, affrontiamo diverse sfide tecniche che spaziano dalla separazione cieca delle sorgenti, alla localizzazione, alla traduzione espressiva in tempo reale e al rendering binaurale per preservare le direzioni dei parlanti nell'audio tradotto, ottenendo al contempo un'inferenza in tempo reale sul silicio Apple M2. La nostra valutazione proof-of-concept con un prototipo di cuffia binaurale dimostra che, a differenza dei modelli esistenti che falliscono in presenza di interferenze, raggiungiamo un punteggio BLEU fino a 22.01 quando traduciamo tra lingue, nonostante forti interferenze da parte di altri parlanti nell'ambiente. Gli studi sugli utenti confermano ulteriormente l'efficacia del sistema nel rendere spazialmente il parlato tradotto in ambienti reali riverberanti mai visti prima. Facendo un passo indietro, questo lavoro segna il primo passo verso l'integrazione della percezione spaziale nella traduzione vocale.
English
Imagine being in a crowded space where people speak a different language and
having hearables that transform the auditory space into your native language,
while preserving the spatial cues for all speakers. We introduce spatial speech
translation, a novel concept for hearables that translate speakers in the
wearer's environment, while maintaining the direction and unique voice
characteristics of each speaker in the binaural output. To achieve this, we
tackle several technical challenges spanning blind source separation,
localization, real-time expressive translation, and binaural rendering to
preserve the speaker directions in the translated audio, while achieving
real-time inference on the Apple M2 silicon. Our proof-of-concept evaluation
with a prototype binaural headset shows that, unlike existing models, which
fail in the presence of interference, we achieve a BLEU score of up to 22.01
when translating between languages, despite strong interference from other
speakers in the environment. User studies further confirm the system's
effectiveness in spatially rendering the translated speech in previously unseen
real-world reverberant environments. Taking a step back, this work marks the
first step towards integrating spatial perception into speech translation.