BinauralFlow: 플로우 매칭 모델을 활용한 고품질 이중 청각 음성 합성을 위한 인과적 및 스트리밍 가능 접근법
BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models
May 28, 2025
저자: Susan Liang, Dejan Markovic, Israel D. Gebru, Steven Krenn, Todd Keebler, Jacob Sandakly, Frank Yu, Samuel Hassel, Chenliang Xu, Alexander Richard
cs.AI
초록
바이노럴 렌더링은 모노 오디오와 스피커 및 청취자의 위치를 기반으로 자연스러운 청각을 모방한 바이노럴 오디오를 합성하는 것을 목표로 합니다. 이 문제를 해결하기 위해 많은 방법이 제안되었지만, 렌더링 품질과 스트리밍 가능한 추론 측면에서 어려움을 겪고 있습니다. 실제 녹음과 구분할 수 없는 고품질의 바이노럴 오디오를 합성하려면 바이노럴 큐, 실내 리버브, 주변 소음 등을 정밀하게 모델링해야 합니다. 또한 실제 응용 프로그램에서는 스트리밍 추론이 요구됩니다. 이러한 문제를 해결하기 위해, 우리는 BinauralFlow라는 플로우 매칭 기반 스트리밍 바이노럴 음성 합성 프레임워크를 제안합니다. 우리는 바이노럴 렌더링을 회귀 문제가 아닌 생성 문제로 간주하고, 고품질 오디오를 렌더링하기 위한 조건부 플로우 매칭 모델을 설계했습니다. 더 나아가, 과거 정보만을 기반으로 현재 오디오 프레임을 추정하는 인과적 U-Net 아키텍처를 설계하여 생성 모델을 스트리밍 추론에 맞게 조정했습니다. 마지막으로, 스트리밍 STFT/ISTFT 연산, 버퍼 뱅크, 중간점 솔버, 그리고 조기 스킵 스케줄을 통합한 연속 추론 파이프라인을 도입하여 렌더링의 연속성과 속도를 개선했습니다. 정량적 및 정성적 평가를 통해 우리의 방법이 최신 기술(SOTA) 접근법을 능가함을 입증했습니다. 또한, 인지 연구를 통해 우리 모델이 실제 녹음과 거의 구분할 수 없으며, 42%의 혼동률을 보이는 것으로 나타났습니다.
English
Binaural rendering aims to synthesize binaural audio that mimics natural
hearing based on a mono audio and the locations of the speaker and listener.
Although many methods have been proposed to solve this problem, they struggle
with rendering quality and streamable inference. Synthesizing high-quality
binaural audio that is indistinguishable from real-world recordings requires
precise modeling of binaural cues, room reverb, and ambient sounds.
Additionally, real-world applications demand streaming inference. To address
these challenges, we propose a flow matching based streaming binaural speech
synthesis framework called BinauralFlow. We consider binaural rendering to be a
generation problem rather than a regression problem and design a conditional
flow matching model to render high-quality audio. Moreover, we design a causal
U-Net architecture that estimates the current audio frame solely based on past
information to tailor generative models for streaming inference. Finally, we
introduce a continuous inference pipeline incorporating streaming STFT/ISTFT
operations, a buffer bank, a midpoint solver, and an early skip schedule to
improve rendering continuity and speed. Quantitative and qualitative
evaluations demonstrate the superiority of our method over SOTA approaches. A
perceptual study further reveals that our model is nearly indistinguishable
from real-world recordings, with a 42% confusion rate.