ViSAudio: Сквозная генерация бинаурального пространственного аудио на основе видео
ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation
December 2, 2025
Авторы: Mengchen Zhang, Qi Chen, Tong Wu, Zihan Liu, Dahua Lin
cs.AI
Аннотация
Несмотря на прогресс в генерации аудио из видео, данная область преимущественно сосредоточена на монофоническом выводе, лишённом пространственного погружения. Существующие бинауральные подходы ограничены двухэтапным конвейером, который сначала генерирует монофонический звук, а затем выполняет пространственную обработку, что зачастую приводит к накоплению ошибок и пространственно-временным несоответствиям. Для преодоления этого ограничения мы вводим задачу сквозной генерации бинаурального пространственного аудио непосредственно из беззвучного видео. Для решения этой задачи мы представляем набор данных BiAudio, содержащий около 97 тыс. пар "видео-бинауральный звук", охватывающих разнообразные реальные сцены и траектории вращения камеры, созданный с помощью полуавтоматического конвейера. Кроме того, мы предлагаем ViSAudio — сквозную архитектуру, использующую условное сопоставление потоков с двухкомпонентной структурой генерации аудио, где две специализированные ветви моделируют латентные потоки аудио. Интегрированный с модулем условного пространства-времени, фреймворк обеспечивает баланс согласованности между каналами при сохранении distinctive пространственных характеристик, гарантируя точное пространственно-временное соответствие между звуком и входным видео. Всесторонние эксперименты демонстрируют, что ViSAudio превосходит существующие передовые методы как по объективным метрикам, так и по субъективным оценкам, генерируя бинауральный звук высокого качества с пространственным погружением, который эффективно адаптируется к изменениям точки обзора, движению источников звука и разнообразным акустическим условиям. Страница проекта: https://kszpxxzmc.github.io/ViSAudio-project.
English
Despite progress in video-to-audio generation, the field focuses predominantly on mono output, lacking spatial immersion. Existing binaural approaches remain constrained by a two-stage pipeline that first generates mono audio and then performs spatialization, often resulting in error accumulation and spatio-temporal inconsistencies. To address this limitation, we introduce the task of end-to-end binaural spatial audio generation directly from silent video. To support this task, we present the BiAudio dataset, comprising approximately 97K video-binaural audio pairs spanning diverse real-world scenes and camera rotation trajectories, constructed through a semi-automated pipeline. Furthermore, we propose ViSAudio, an end-to-end framework that employs conditional flow matching with a dual-branch audio generation architecture, where two dedicated branches model the audio latent flows. Integrated with a conditional spacetime module, it balances consistency between channels while preserving distinctive spatial characteristics, ensuring precise spatio-temporal alignment between audio and the input video. Comprehensive experiments demonstrate that ViSAudio outperforms existing state-of-the-art methods across both objective metrics and subjective evaluations, generating high-quality binaural audio with spatial immersion that adapts effectively to viewpoint changes, sound-source motion, and diverse acoustic environments. Project website: https://kszpxxzmc.github.io/ViSAudio-project.