ChatPaper.aiChatPaper

空間音声翻訳:バイノーラルヘアラブルを用いた空間を超えた翻訳

Spatial Speech Translation: Translating Across Space With Binaural Hearables

April 25, 2025
著者: Tuochao Chen, Qirui Wang, Runlin He, Shyam Gollakota
cs.AI

要旨

異なる言語が飛び交う混雑した空間にいながら、周囲の音声空間を母国語に変換しつつ、すべての話者の空間的キューを保持するヘアラブルデバイスを想像してください。本論文では、空間的音声翻訳という新しいコンセプトを紹介します。これは、装着者の環境中の話者を翻訳しつつ、バイノーラル出力において各話者の方向性と個性的な声の特徴を維持するヘアラブルデバイスのための技術です。これを実現するため、我々はブラインドソース分離、位置推定、リアルタイム表現力豊かな翻訳、そして翻訳された音声中で話者の方向性を保持するバイノーラルレンダリングといった技術的課題に取り組み、Apple M2シリコン上でのリアルタイム推論を達成しました。プロトタイプのバイノーラルヘッドセットを用いた概念実証評価では、干渉下で失敗する既存モデルとは異なり、環境中の他の話者からの強い干渉があっても、言語間翻訳において最大22.01のBLEUスコアを達成しました。ユーザスタディでは、これまで未経験の現実世界の残響環境において、翻訳された音声を空間的にレンダリングするシステムの有効性がさらに確認されました。一歩引いて見ると、この研究は音声翻訳に空間的知覚を統合するための第一歩を記すものです。
English
Imagine being in a crowded space where people speak a different language and having hearables that transform the auditory space into your native language, while preserving the spatial cues for all speakers. We introduce spatial speech translation, a novel concept for hearables that translate speakers in the wearer's environment, while maintaining the direction and unique voice characteristics of each speaker in the binaural output. To achieve this, we tackle several technical challenges spanning blind source separation, localization, real-time expressive translation, and binaural rendering to preserve the speaker directions in the translated audio, while achieving real-time inference on the Apple M2 silicon. Our proof-of-concept evaluation with a prototype binaural headset shows that, unlike existing models, which fail in the presence of interference, we achieve a BLEU score of up to 22.01 when translating between languages, despite strong interference from other speakers in the environment. User studies further confirm the system's effectiveness in spatially rendering the translated speech in previously unseen real-world reverberant environments. Taking a step back, this work marks the first step towards integrating spatial perception into speech translation.

Summary

AI-Generated Summary

PDF71May 4, 2025