BinauralFlow: Каузальный и потоковый подход для синтеза высококачественной бинауральной речи с использованием моделей Flow Matching
BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models
May 28, 2025
Авторы: Susan Liang, Dejan Markovic, Israel D. Gebru, Steven Krenn, Todd Keebler, Jacob Sandakly, Frank Yu, Samuel Hassel, Chenliang Xu, Alexander Richard
cs.AI
Аннотация
Бинауральный рендеринг направлен на синтез бинаурального звука, имитирующего естественное восприятие, на основе монофонического аудио и расположения источника звука и слушателя. Хотя для решения этой задачи было предложено множество методов, они сталкиваются с проблемами качества рендеринга и возможностью потокового вывода. Синтез высококачественного бинаурального звука, неотличимого от реальных записей, требует точного моделирования бинауральных сигналов, реверберации помещения и окружающих звуков. Кроме того, практические приложения требуют потокового вывода. Для решения этих задач мы предлагаем фреймворк потокового синтеза бинауральной речи на основе сопоставления потоков, названный BinauralFlow. Мы рассматриваем бинауральный рендеринг как задачу генерации, а не регрессии, и разрабатываем условную модель сопоставления потоков для создания высококачественного звука. Кроме того, мы разрабатываем причинную архитектуру U-Net, которая оценивает текущий аудиокадр исключительно на основе прошлой информации, чтобы адаптировать генеративные модели для потокового вывода. Наконец, мы вводим непрерывный конвейер вывода, включающий потоковые операции STFT/ISTFT, буферный банк, решатель средней точки и ранний график пропуска для улучшения непрерывности и скорости рендеринга. Количественные и качественные оценки демонстрируют превосходство нашего метода над современными подходами. Перцептивное исследование дополнительно показывает, что наша модель практически неотличима от реальных записей с частотой ошибок 42%.
English
Binaural rendering aims to synthesize binaural audio that mimics natural
hearing based on a mono audio and the locations of the speaker and listener.
Although many methods have been proposed to solve this problem, they struggle
with rendering quality and streamable inference. Synthesizing high-quality
binaural audio that is indistinguishable from real-world recordings requires
precise modeling of binaural cues, room reverb, and ambient sounds.
Additionally, real-world applications demand streaming inference. To address
these challenges, we propose a flow matching based streaming binaural speech
synthesis framework called BinauralFlow. We consider binaural rendering to be a
generation problem rather than a regression problem and design a conditional
flow matching model to render high-quality audio. Moreover, we design a causal
U-Net architecture that estimates the current audio frame solely based on past
information to tailor generative models for streaming inference. Finally, we
introduce a continuous inference pipeline incorporating streaming STFT/ISTFT
operations, a buffer bank, a midpoint solver, and an early skip schedule to
improve rendering continuity and speed. Quantitative and qualitative
evaluations demonstrate the superiority of our method over SOTA approaches. A
perceptual study further reveals that our model is nearly indistinguishable
from real-world recordings, with a 42% confusion rate.