ChatPaper.aiChatPaper

BinauralFlow: Een Causale en Stroombare Benadering voor Hoogwaardige Binaurale Spraaksynthese met Flow Matching Modellen

BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models

May 28, 2025
Auteurs: Susan Liang, Dejan Markovic, Israel D. Gebru, Steven Krenn, Todd Keebler, Jacob Sandakly, Frank Yu, Samuel Hassel, Chenliang Xu, Alexander Richard
cs.AI

Samenvatting

Binaurale weergave heeft als doel binauraal audio te synthetiseren dat natuurlijk gehoor nabootst op basis van een mono-audio en de locaties van de spreker en luisteraar. Hoewel er veel methoden zijn voorgesteld om dit probleem op te lossen, hebben ze moeite met de weergavekwaliteit en stroombare inferentie. Het synthetiseren van hoogwaardige binaurale audio die niet te onderscheiden is van opnames uit de echte wereld vereist een nauwkeurige modellering van binaurale signalen, ruimtelijke nagalm en omgevingsgeluiden. Daarnaast vereisen praktische toepassingen stroombare inferentie. Om deze uitdagingen aan te pakken, stellen we een op flow matching gebaseerd framework voor stroombare binaurale spraaksynthese voor, genaamd BinauralFlow. We beschouwen binaurale weergave als een generatieprobleem in plaats van een regressieprobleem en ontwerpen een conditioneel flow matching-model om hoogwaardige audio te renderen. Bovendien ontwerpen we een causale U-Net-architectuur die het huidige audiokader uitsluitend schat op basis van eerdere informatie om generatieve modellen aan te passen voor stroombare inferentie. Ten slotte introduceren we een continue inferentiepijplijn die stroombare STFT/ISTFT-operaties, een bufferbank, een midpoint solver en een early skip-schema omvat om de continuïteit en snelheid van de weergave te verbeteren. Kwantitatieve en kwalitatieve evaluaties tonen de superioriteit van onze methode aan ten opzichte van state-of-the-art benaderingen. Een perceptuele studie toont verder aan dat ons model bijna niet te onderscheiden is van opnames uit de echte wereld, met een verwarringspercentage van 42%.
English
Binaural rendering aims to synthesize binaural audio that mimics natural hearing based on a mono audio and the locations of the speaker and listener. Although many methods have been proposed to solve this problem, they struggle with rendering quality and streamable inference. Synthesizing high-quality binaural audio that is indistinguishable from real-world recordings requires precise modeling of binaural cues, room reverb, and ambient sounds. Additionally, real-world applications demand streaming inference. To address these challenges, we propose a flow matching based streaming binaural speech synthesis framework called BinauralFlow. We consider binaural rendering to be a generation problem rather than a regression problem and design a conditional flow matching model to render high-quality audio. Moreover, we design a causal U-Net architecture that estimates the current audio frame solely based on past information to tailor generative models for streaming inference. Finally, we introduce a continuous inference pipeline incorporating streaming STFT/ISTFT operations, a buffer bank, a midpoint solver, and an early skip schedule to improve rendering continuity and speed. Quantitative and qualitative evaluations demonstrate the superiority of our method over SOTA approaches. A perceptual study further reveals that our model is nearly indistinguishable from real-world recordings, with a 42% confusion rate.
PDF22June 3, 2025