ViSAudio: Generación de Audio Espacial Binaural Dirigida por Video de Extremo a Extremo
ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation
December 2, 2025
Autores: Mengchen Zhang, Qi Chen, Tong Wu, Zihan Liu, Dahua Lin
cs.AI
Resumen
A pesar de los avances en la generación de audio a partir de video, el campo se centra predominantemente en la salida mono, careciendo de inmersión espacial. Los enfoques binaurales existentes siguen limitados por un proceso en dos etapas que primero genera audio mono y luego realiza la espacialización, lo que a menudo resulta en una acumulación de errores e inconsistencias espacio-temporales. Para abordar esta limitación, presentamos la tarea de generar audio espacial binaural de extremo a extremo directamente a partir de video silencioso. Para respaldar esta tarea, presentamos el conjunto de datos BiAudio, que comprende aproximadamente 97.000 pares de video-audio binaural que abarcan diversas escenas del mundo real y trayectorias de rotación de cámara, construido mediante un proceso semiautomatizado. Además, proponemos ViSAudio, un marco de trabajo de extremo a extremo que emplea *conditional flow matching* con una arquitectura de generación de audio de doble rama, donde dos ramas especializadas modelan los flujos latentes de audio. Integrado con un módulo espacio-temporal condicional, equilibra la coherencia entre canales preservando al mismo tiempo las características espaciales distintivas, garantizando una alineación espacio-temporal precisa entre el audio y el video de entrada. Experimentos exhaustivos demuestran que ViSAudio supera a los métodos estado del arte existentes tanto en métricas objetivas como en evaluaciones subjetivas, generando audio binaural de alta calidad con inmersión espacial que se adapta eficazmente a los cambios de punto de vista, al movimiento de la fuente sonora y a diversos entornos acústicos. Sitio web del proyecto: https://kszpxxzmc.github.io/ViSAudio-project.
English
Despite progress in video-to-audio generation, the field focuses predominantly on mono output, lacking spatial immersion. Existing binaural approaches remain constrained by a two-stage pipeline that first generates mono audio and then performs spatialization, often resulting in error accumulation and spatio-temporal inconsistencies. To address this limitation, we introduce the task of end-to-end binaural spatial audio generation directly from silent video. To support this task, we present the BiAudio dataset, comprising approximately 97K video-binaural audio pairs spanning diverse real-world scenes and camera rotation trajectories, constructed through a semi-automated pipeline. Furthermore, we propose ViSAudio, an end-to-end framework that employs conditional flow matching with a dual-branch audio generation architecture, where two dedicated branches model the audio latent flows. Integrated with a conditional spacetime module, it balances consistency between channels while preserving distinctive spatial characteristics, ensuring precise spatio-temporal alignment between audio and the input video. Comprehensive experiments demonstrate that ViSAudio outperforms existing state-of-the-art methods across both objective metrics and subjective evaluations, generating high-quality binaural audio with spatial immersion that adapts effectively to viewpoint changes, sound-source motion, and diverse acoustic environments. Project website: https://kszpxxzmc.github.io/ViSAudio-project.