BinauralFlow: フローマッチングモデルを用いた高品質バイノーラル音声合成のための因果的かつストリーミング可能なアプローチ
BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models
May 28, 2025
著者: Susan Liang, Dejan Markovic, Israel D. Gebru, Steven Krenn, Todd Keebler, Jacob Sandakly, Frank Yu, Samuel Hassel, Chenliang Xu, Alexander Richard
cs.AI
要旨
バイノーラルレンダリングは、モノラル音声と話者および聴取者の位置に基づいて、自然な聴覚を模倣するバイノーラル音声を合成することを目的としている。この問題を解決するために多くの手法が提案されているが、レンダリング品質とストリーミング推論に課題を抱えている。現実世界の録音と区別がつかない高品質なバイノーラル音声を合成するためには、バイノーラルキュー、室内残響、環境音の正確なモデリングが必要である。さらに、実世界のアプリケーションではストリーミング推論が求められる。これらの課題に対処するため、我々はBinauralFlowと呼ばれるフローマッチングに基づくストリーミングバイノーラル音声合成フレームワークを提案する。バイノーラルレンダリングを回帰問題ではなく生成問題と見なし、高品質な音声をレンダリングするための条件付きフローマッチングモデルを設計した。さらに、過去の情報のみに基づいて現在の音声フレームを推定する因果的U-Netアーキテクチャを設計し、生成モデルをストリーミング推論に適応させた。最後に、ストリーミングSTFT/ISTFT操作、バッファバンク、中点ソルバー、早期スキップスケジュールを組み込んだ連続推論パイプラインを導入し、レンダリングの連続性と速度を向上させた。定量的および定性的な評価により、我々の手法がSOTAアプローチを凌駕することを示した。知覚研究では、我々のモデルが現実世界の録音とほぼ区別がつかないことが明らかとなり、42%の混同率を示した。
English
Binaural rendering aims to synthesize binaural audio that mimics natural
hearing based on a mono audio and the locations of the speaker and listener.
Although many methods have been proposed to solve this problem, they struggle
with rendering quality and streamable inference. Synthesizing high-quality
binaural audio that is indistinguishable from real-world recordings requires
precise modeling of binaural cues, room reverb, and ambient sounds.
Additionally, real-world applications demand streaming inference. To address
these challenges, we propose a flow matching based streaming binaural speech
synthesis framework called BinauralFlow. We consider binaural rendering to be a
generation problem rather than a regression problem and design a conditional
flow matching model to render high-quality audio. Moreover, we design a causal
U-Net architecture that estimates the current audio frame solely based on past
information to tailor generative models for streaming inference. Finally, we
introduce a continuous inference pipeline incorporating streaming STFT/ISTFT
operations, a buffer bank, a midpoint solver, and an early skip schedule to
improve rendering continuity and speed. Quantitative and qualitative
evaluations demonstrate the superiority of our method over SOTA approaches. A
perceptual study further reveals that our model is nearly indistinguishable
from real-world recordings, with a 42% confusion rate.