ChatPaper.aiChatPaper

BinauralFlow: Uma Abordagem Causal e Transmissível para Síntese de Fala Binaural de Alta Qualidade com Modelos de Flow Matching

BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models

May 28, 2025
Autores: Susan Liang, Dejan Markovic, Israel D. Gebru, Steven Krenn, Todd Keebler, Jacob Sandakly, Frank Yu, Samuel Hassel, Chenliang Xu, Alexander Richard
cs.AI

Resumo

A renderização binaural visa sintetizar áudio binaural que imita a audição natural com base em um áudio mono e nas localizações do falante e do ouvinte. Embora muitos métodos tenham sido propostos para resolver esse problema, eles enfrentam dificuldades com a qualidade de renderização e inferência em fluxo contínuo. Sintetizar áudio binaural de alta qualidade que seja indistinguível de gravações do mundo real requer uma modelagem precisa de pistas binaurais, reverberação do ambiente e sons ambientes. Além disso, aplicações do mundo real demandam inferência em fluxo contínuo. Para abordar esses desafios, propomos um framework de síntese de fala binaural em fluxo contínuo baseado em correspondência de fluxo, chamado BinauralFlow. Consideramos a renderização binaural como um problema de geração em vez de um problema de regressão e projetamos um modelo de correspondência de fluxo condicional para renderizar áudio de alta qualidade. Além disso, projetamos uma arquitetura causal U-Net que estima o quadro de áudio atual com base apenas em informações passadas, adaptando modelos generativos para inferência em fluxo contínuo. Por fim, introduzimos um pipeline de inferência contínua que incorpora operações de STFT/ISTFT em fluxo contínuo, um banco de buffers, um resolvedor de ponto médio e um esquema de salto antecipado para melhorar a continuidade e a velocidade da renderização. Avaliações quantitativas e qualitativas demonstram a superioridade do nosso método em relação às abordagens state-of-the-art (SOTA). Um estudo perceptual revela ainda que nosso modelo é quase indistinguível de gravações do mundo real, com uma taxa de confusão de 42%.
English
Binaural rendering aims to synthesize binaural audio that mimics natural hearing based on a mono audio and the locations of the speaker and listener. Although many methods have been proposed to solve this problem, they struggle with rendering quality and streamable inference. Synthesizing high-quality binaural audio that is indistinguishable from real-world recordings requires precise modeling of binaural cues, room reverb, and ambient sounds. Additionally, real-world applications demand streaming inference. To address these challenges, we propose a flow matching based streaming binaural speech synthesis framework called BinauralFlow. We consider binaural rendering to be a generation problem rather than a regression problem and design a conditional flow matching model to render high-quality audio. Moreover, we design a causal U-Net architecture that estimates the current audio frame solely based on past information to tailor generative models for streaming inference. Finally, we introduce a continuous inference pipeline incorporating streaming STFT/ISTFT operations, a buffer bank, a midpoint solver, and an early skip schedule to improve rendering continuity and speed. Quantitative and qualitative evaluations demonstrate the superiority of our method over SOTA approaches. A perceptual study further reveals that our model is nearly indistinguishable from real-world recordings, with a 42% confusion rate.
PDF22June 3, 2025