Traducción Espacial del Habla: Traducción a Través del Espacio con Auriculares Binaurales

Resumen

Imagina estar en un espacio concurrido donde las personas hablan un idioma diferente y tener auriculares que transforman el espacio auditivo a tu idioma nativo, mientras preservan las señales espaciales de todos los hablantes. Presentamos la traducción espacial del habla, un concepto novedoso para auriculares que traducen a los hablantes en el entorno del usuario, manteniendo la dirección y las características únicas de la voz de cada hablante en la salida binaural. Para lograrlo, abordamos varios desafíos técnicos que abarcan la separación ciega de fuentes, la localización, la traducción expresiva en tiempo real y la renderización binaural para preservar las direcciones de los hablantes en el audio traducido, al mismo tiempo que logramos inferencia en tiempo real en el silicio Apple M2. Nuestra evaluación de prueba de concepto con un prototipo de auriculares binaurales muestra que, a diferencia de los modelos existentes, que fallan en presencia de interferencias, alcanzamos un puntaje BLEU de hasta 22.01 al traducir entre idiomas, a pesar de la fuerte interferencia de otros hablantes en el entorno. Estudios con usuarios confirman además la efectividad del sistema para renderizar espacialmente el habla traducida en entornos reverberantes del mundo real no vistos previamente. En retrospectiva, este trabajo marca el primer paso hacia la integración de la percepción espacial en la traducción del habla.

English

Imagine being in a crowded space where people speak a different language and having hearables that transform the auditory space into your native language, while preserving the spatial cues for all speakers. We introduce spatial speech translation, a novel concept for hearables that translate speakers in the wearer's environment, while maintaining the direction and unique voice characteristics of each speaker in the binaural output. To achieve this, we tackle several technical challenges spanning blind source separation, localization, real-time expressive translation, and binaural rendering to preserve the speaker directions in the translated audio, while achieving real-time inference on the Apple M2 silicon. Our proof-of-concept evaluation with a prototype binaural headset shows that, unlike existing models, which fail in the presence of interference, we achieve a BLEU score of up to 22.01 when translating between languages, despite strong interference from other speakers in the environment. User studies further confirm the system's effectiveness in spatially rendering the translated speech in previously unseen real-world reverberant environments. Taking a step back, this work marks the first step towards integrating spatial perception into speech translation.