ChatPaper.aiChatPaper

BinauralFlow: Ein kausaler und streamfähiger Ansatz für hochwertige binaurale Sprachsynthese mit Flow-Matching-Modellen

BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models

May 28, 2025
Autoren: Susan Liang, Dejan Markovic, Israel D. Gebru, Steven Krenn, Todd Keebler, Jacob Sandakly, Frank Yu, Samuel Hassel, Chenliang Xu, Alexander Richard
cs.AI

Zusammenfassung

Binaurales Rendering zielt darauf ab, binaurales Audio zu synthetisieren, das das natürliche Hören auf der Grundlage eines Mono-Audios sowie der Positionen des Sprechers und des Zuhörers nachahmt. Obwohl viele Methoden zur Lösung dieses Problems vorgeschlagen wurden, kämpfen sie mit der Renderqualität und der streamfähigen Inferenz. Die Synthese von hochwertigem binauralem Audio, das nicht von realen Aufnahmen zu unterscheiden ist, erfordert eine präzise Modellierung von binauralen Hinweisen, Raumhall und Umgebungsgeräuschen. Darüber hinaus erfordern reale Anwendungen eine Streaming-Inferenz. Um diese Herausforderungen zu bewältigen, schlagen wir ein auf Flow Matching basierendes Streaming-Binaural-Sprachsynthese-Framework namens BinauralFlow vor. Wir betrachten binaurales Rendering als ein Generierungsproblem und nicht als ein Regressionsproblem und entwerfen ein bedingtes Flow-Matching-Modell, um hochwertiges Audio zu rendern. Darüber hinaus entwerfen wir eine kausale U-Net-Architektur, die den aktuellen Audioframe ausschließlich auf der Grundlage vergangener Informationen schätzt, um generative Modelle für die Streaming-Inferenz anzupassen. Schließlich führen wir eine kontinuierliche Inferenzpipeline ein, die Streaming-STFT/ISTFT-Operationen, einen Pufferbank, einen Midpoint-Solver und einen Early-Skip-Zeitplan integriert, um die Renderkontinuität und -geschwindigkeit zu verbessern. Quantitative und qualitative Auswertungen demonstrieren die Überlegenheit unserer Methode gegenüber SOTA-Ansätzen. Eine Wahrnehmungsstudie zeigt weiterhin, dass unser Modell nahezu nicht von realen Aufnahmen zu unterscheiden ist, mit einer Verwechslungsrate von 42 %.
English
Binaural rendering aims to synthesize binaural audio that mimics natural hearing based on a mono audio and the locations of the speaker and listener. Although many methods have been proposed to solve this problem, they struggle with rendering quality and streamable inference. Synthesizing high-quality binaural audio that is indistinguishable from real-world recordings requires precise modeling of binaural cues, room reverb, and ambient sounds. Additionally, real-world applications demand streaming inference. To address these challenges, we propose a flow matching based streaming binaural speech synthesis framework called BinauralFlow. We consider binaural rendering to be a generation problem rather than a regression problem and design a conditional flow matching model to render high-quality audio. Moreover, we design a causal U-Net architecture that estimates the current audio frame solely based on past information to tailor generative models for streaming inference. Finally, we introduce a continuous inference pipeline incorporating streaming STFT/ISTFT operations, a buffer bank, a midpoint solver, and an early skip schedule to improve rendering continuity and speed. Quantitative and qualitative evaluations demonstrate the superiority of our method over SOTA approaches. A perceptual study further reveals that our model is nearly indistinguishable from real-world recordings, with a 42% confusion rate.
PDF22June 3, 2025