ChatPaper.aiChatPaper

Ruimtelijke Spraakvertaling: Vertalen door de ruimte met binaurale hoorapparaten

Spatial Speech Translation: Translating Across Space With Binaural Hearables

April 25, 2025
Auteurs: Tuochao Chen, Qirui Wang, Runlin He, Shyam Gollakota
cs.AI

Samenvatting

Stel je voor dat je in een drukke ruimte bent waar mensen een andere taal spreken, en dat je hoorapparaten hebt die de auditieve ruimte omzetten naar je moedertaal, terwijl de ruimtelijke aanwijzingen voor alle sprekers behouden blijven. Wij introduceren ruimtelijke spraakvertaling, een nieuw concept voor hoorapparaten dat sprekers in de omgeving van de drager vertaalt, terwijl de richting en unieke stemkenmerken van elke spreker in het binaurale geluid behouden blijven. Om dit te bereiken, pakken we verschillende technische uitdagingen aan, waaronder blinde bronseparatie, lokalisatie, real-time expressieve vertaling en binaurale weergave om de richting van de sprekers in de vertaalde audio te behouden, terwijl we real-time inferentie bereiken op de Apple M2-silicium. Onze proof-of-concept-evaluatie met een prototype binaural hoofdtelefoon laat zien dat we, in tegenstelling tot bestaande modellen die falen bij interferentie, een BLEU-score van maximaal 22,01 behalen bij het vertalen tussen talen, ondanks sterke interferentie van andere sprekers in de omgeving. Gebruikersstudies bevestigen verder de effectiviteit van het systeem in het ruimtelijk weergeven van de vertaalde spraak in voorheen onbekende, reverbererende omgevingen in de echte wereld. Als we een stap terug nemen, markeert dit werk de eerste stap naar het integreren van ruimtelijke waarneming in spraakvertaling.
English
Imagine being in a crowded space where people speak a different language and having hearables that transform the auditory space into your native language, while preserving the spatial cues for all speakers. We introduce spatial speech translation, a novel concept for hearables that translate speakers in the wearer's environment, while maintaining the direction and unique voice characteristics of each speaker in the binaural output. To achieve this, we tackle several technical challenges spanning blind source separation, localization, real-time expressive translation, and binaural rendering to preserve the speaker directions in the translated audio, while achieving real-time inference on the Apple M2 silicon. Our proof-of-concept evaluation with a prototype binaural headset shows that, unlike existing models, which fail in the presence of interference, we achieve a BLEU score of up to 22.01 when translating between languages, despite strong interference from other speakers in the environment. User studies further confirm the system's effectiveness in spatially rendering the translated speech in previously unseen real-world reverberant environments. Taking a step back, this work marks the first step towards integrating spatial perception into speech translation.
PDF71May 4, 2025