Traducción Espacial del Habla: Traducción a Través del Espacio con Auriculares Binaurales
Spatial Speech Translation: Translating Across Space With Binaural Hearables
April 25, 2025
Autores: Tuochao Chen, Qirui Wang, Runlin He, Shyam Gollakota
cs.AI
Resumen
Imagina estar en un espacio concurrido donde las personas hablan un idioma diferente y tener auriculares que transforman el espacio auditivo a tu idioma nativo, mientras preservan las señales espaciales de todos los hablantes. Presentamos la traducción espacial del habla, un concepto novedoso para auriculares que traducen a los hablantes en el entorno del usuario, manteniendo la dirección y las características únicas de la voz de cada hablante en la salida binaural. Para lograrlo, abordamos varios desafíos técnicos que abarcan la separación ciega de fuentes, la localización, la traducción expresiva en tiempo real y la renderización binaural para preservar las direcciones de los hablantes en el audio traducido, al mismo tiempo que logramos inferencia en tiempo real en el silicio Apple M2. Nuestra evaluación de prueba de concepto con un prototipo de auriculares binaurales muestra que, a diferencia de los modelos existentes, que fallan en presencia de interferencias, alcanzamos un puntaje BLEU de hasta 22.01 al traducir entre idiomas, a pesar de la fuerte interferencia de otros hablantes en el entorno. Estudios con usuarios confirman además la efectividad del sistema para renderizar espacialmente el habla traducida en entornos reverberantes del mundo real no vistos previamente. En retrospectiva, este trabajo marca el primer paso hacia la integración de la percepción espacial en la traducción del habla.
English
Imagine being in a crowded space where people speak a different language and
having hearables that transform the auditory space into your native language,
while preserving the spatial cues for all speakers. We introduce spatial speech
translation, a novel concept for hearables that translate speakers in the
wearer's environment, while maintaining the direction and unique voice
characteristics of each speaker in the binaural output. To achieve this, we
tackle several technical challenges spanning blind source separation,
localization, real-time expressive translation, and binaural rendering to
preserve the speaker directions in the translated audio, while achieving
real-time inference on the Apple M2 silicon. Our proof-of-concept evaluation
with a prototype binaural headset shows that, unlike existing models, which
fail in the presence of interference, we achieve a BLEU score of up to 22.01
when translating between languages, despite strong interference from other
speakers in the environment. User studies further confirm the system's
effectiveness in spatially rendering the translated speech in previously unseen
real-world reverberant environments. Taking a step back, this work marks the
first step towards integrating spatial perception into speech translation.Summary
AI-Generated Summary