ChatPaper.aiChatPaper

BinauralFlow: Un enfoque causal y transmisible para la síntesis de habla binaural de alta calidad con modelos de emparejamiento de flujo

BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models

May 28, 2025
Autores: Susan Liang, Dejan Markovic, Israel D. Gebru, Steven Krenn, Todd Keebler, Jacob Sandakly, Frank Yu, Samuel Hassel, Chenliang Xu, Alexander Richard
cs.AI

Resumen

La renderización binaural tiene como objetivo sintetizar audio binaural que imite la audición natural basándose en un audio mono y las ubicaciones del hablante y el oyente. Aunque se han propuesto muchos métodos para resolver este problema, estos enfrentan dificultades en cuanto a la calidad de la renderización y la inferencia en tiempo real. La síntesis de audio binaural de alta calidad que sea indistinguible de las grabaciones del mundo real requiere un modelado preciso de las señales binaurales, la reverberación de la habitación y los sonidos ambientales. Además, las aplicaciones del mundo real exigen inferencia en tiempo real. Para abordar estos desafíos, proponemos un marco de síntesis de voz binaural en tiempo real basado en emparejamiento de flujos, denominado BinauralFlow. Consideramos la renderización binaural como un problema de generación en lugar de un problema de regresión y diseñamos un modelo de emparejamiento de flujos condicional para renderizar audio de alta calidad. Además, diseñamos una arquitectura causal U-Net que estima el fotograma de audio actual únicamente basándose en información pasada para adaptar los modelos generativos a la inferencia en tiempo real. Finalmente, introducimos una canalización de inferencia continua que incorpora operaciones de STFT/ISTFT en tiempo real, un banco de búferes, un solucionador de punto medio y un esquema de salto temprano para mejorar la continuidad y la velocidad de la renderización. Las evaluaciones cuantitativas y cualitativas demuestran la superioridad de nuestro método sobre los enfoques más avanzados (SOTA). Un estudio perceptual revela además que nuestro modelo es casi indistinguible de las grabaciones del mundo real, con una tasa de confusión del 42%.
English
Binaural rendering aims to synthesize binaural audio that mimics natural hearing based on a mono audio and the locations of the speaker and listener. Although many methods have been proposed to solve this problem, they struggle with rendering quality and streamable inference. Synthesizing high-quality binaural audio that is indistinguishable from real-world recordings requires precise modeling of binaural cues, room reverb, and ambient sounds. Additionally, real-world applications demand streaming inference. To address these challenges, we propose a flow matching based streaming binaural speech synthesis framework called BinauralFlow. We consider binaural rendering to be a generation problem rather than a regression problem and design a conditional flow matching model to render high-quality audio. Moreover, we design a causal U-Net architecture that estimates the current audio frame solely based on past information to tailor generative models for streaming inference. Finally, we introduce a continuous inference pipeline incorporating streaming STFT/ISTFT operations, a buffer bank, a midpoint solver, and an early skip schedule to improve rendering continuity and speed. Quantitative and qualitative evaluations demonstrate the superiority of our method over SOTA approaches. A perceptual study further reveals that our model is nearly indistinguishable from real-world recordings, with a 42% confusion rate.
PDF22June 3, 2025