ChatPaper.aiChatPaper

BinauralFlow: Un Approccio Causale e Streamabile per la Sintesi Vocale Binaurale di Alta Qualità con Modelli di Flow Matching

BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models

May 28, 2025
Autori: Susan Liang, Dejan Markovic, Israel D. Gebru, Steven Krenn, Todd Keebler, Jacob Sandakly, Frank Yu, Samuel Hassel, Chenliang Xu, Alexander Richard
cs.AI

Abstract

Il rendering binaurale mira a sintetizzare audio binaurale che imiti l'udito naturale basandosi su un audio mono e sulle posizioni del parlante e dell'ascoltatore. Sebbene siano stati proposti molti metodi per risolvere questo problema, essi faticano a garantire qualità di rendering e inferenza in streaming. La sintesi di audio binaurale di alta qualità, indistinguibile dalle registrazioni reali, richiede una modellazione precisa degli indizi binaurali, della riverberazione ambientale e dei suoni circostanti. Inoltre, le applicazioni nel mondo reale richiedono inferenza in streaming. Per affrontare queste sfide, proponiamo un framework di sintesi vocale binaurale in streaming basato su flow matching, chiamato BinauralFlow. Consideriamo il rendering binaurale come un problema di generazione piuttosto che di regressione e progettiamo un modello di flow matching condizionale per produrre audio di alta qualità. Inoltre, progettiamo un'architettura U-Net causale che stima il frame audio corrente basandosi esclusivamente su informazioni passate, adattando i modelli generativi per l'inferenza in streaming. Infine, introduciamo una pipeline di inferenza continua che incorpora operazioni STFT/ISTFT in streaming, un buffer bank, un midpoint solver e uno schedule di early skip per migliorare la continuità e la velocità di rendering. Valutazioni quantitative e qualitative dimostrano la superiorità del nostro metodo rispetto agli approcci SOTA. Uno studio percettivo rivela inoltre che il nostro modello è quasi indistinguibile dalle registrazioni reali, con un tasso di confusione del 42%.
English
Binaural rendering aims to synthesize binaural audio that mimics natural hearing based on a mono audio and the locations of the speaker and listener. Although many methods have been proposed to solve this problem, they struggle with rendering quality and streamable inference. Synthesizing high-quality binaural audio that is indistinguishable from real-world recordings requires precise modeling of binaural cues, room reverb, and ambient sounds. Additionally, real-world applications demand streaming inference. To address these challenges, we propose a flow matching based streaming binaural speech synthesis framework called BinauralFlow. We consider binaural rendering to be a generation problem rather than a regression problem and design a conditional flow matching model to render high-quality audio. Moreover, we design a causal U-Net architecture that estimates the current audio frame solely based on past information to tailor generative models for streaming inference. Finally, we introduce a continuous inference pipeline incorporating streaming STFT/ISTFT operations, a buffer bank, a midpoint solver, and an early skip schedule to improve rendering continuity and speed. Quantitative and qualitative evaluations demonstrate the superiority of our method over SOTA approaches. A perceptual study further reveals that our model is nearly indistinguishable from real-world recordings, with a 42% confusion rate.
PDF22June 3, 2025