ChatPaper.aiChatPaper

BinauralFlow : Une approche causale et streamable pour la synthèse de parole binaurale de haute qualité avec des modèles de correspondance de flux

BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models

May 28, 2025
Auteurs: Susan Liang, Dejan Markovic, Israel D. Gebru, Steven Krenn, Todd Keebler, Jacob Sandakly, Frank Yu, Samuel Hassel, Chenliang Xu, Alexander Richard
cs.AI

Résumé

Le rendu binaural vise à synthétiser un audio binaural qui imite l'audition naturelle à partir d'un audio mono et des positions de l'émetteur et de l'auditeur. Bien que de nombreuses méthodes aient été proposées pour résoudre ce problème, elles peinent à atteindre une qualité de rendu et une inférence en flux continu. La synthèse d'un audio binaural de haute qualité, indiscernable des enregistrements réels, nécessite une modélisation précise des indices binauraux, de la réverbération de la pièce et des sons ambiants. De plus, les applications réelles exigent une inférence en flux continu. Pour relever ces défis, nous proposons un cadre de synthèse de parole binaurale en flux continu basé sur le *flow matching*, appelé BinauralFlow. Nous considérons le rendu binaural comme un problème de génération plutôt que de régression et concevons un modèle de *flow matching* conditionnel pour produire un audio de haute qualité. Par ailleurs, nous concevons une architecture U-Net causale qui estime la trame audio actuelle uniquement à partir des informations passées, afin d'adapter les modèles génératifs à l'inférence en flux continu. Enfin, nous introduisons un pipeline d'inférence continue intégrant des opérations STFT/ISTFT en flux continu, une banque de tampons, un solveur de point médian et un calendrier de saut précoce pour améliorer la continuité et la vitesse du rendu. Les évaluations quantitatives et qualitatives démontrent la supériorité de notre méthode par rapport aux approches de l'état de l'art. Une étude perceptive révèle en outre que notre modèle est presque indiscernable des enregistrements réels, avec un taux de confusion de 42 %.
English
Binaural rendering aims to synthesize binaural audio that mimics natural hearing based on a mono audio and the locations of the speaker and listener. Although many methods have been proposed to solve this problem, they struggle with rendering quality and streamable inference. Synthesizing high-quality binaural audio that is indistinguishable from real-world recordings requires precise modeling of binaural cues, room reverb, and ambient sounds. Additionally, real-world applications demand streaming inference. To address these challenges, we propose a flow matching based streaming binaural speech synthesis framework called BinauralFlow. We consider binaural rendering to be a generation problem rather than a regression problem and design a conditional flow matching model to render high-quality audio. Moreover, we design a causal U-Net architecture that estimates the current audio frame solely based on past information to tailor generative models for streaming inference. Finally, we introduce a continuous inference pipeline incorporating streaming STFT/ISTFT operations, a buffer bank, a midpoint solver, and an early skip schedule to improve rendering continuity and speed. Quantitative and qualitative evaluations demonstrate the superiority of our method over SOTA approaches. A perceptual study further reveals that our model is nearly indistinguishable from real-world recordings, with a 42% confusion rate.
PDF22June 3, 2025