ViSAudio : Génération audio spatiale binaurale pilotée par vidéo de bout en bout
ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation
December 2, 2025
papers.authors: Mengchen Zhang, Qi Chen, Tong Wu, Zihan Liu, Dahua Lin
cs.AI
papers.abstract
Malgré les progrès réalisés en matière de génération audio à partir de vidéo, ce domaine se concentre principalement sur une sortie monophonique, manquant ainsi d'immersion spatiale. Les approches binaurales existantes restent limitées par un pipeline en deux étapes qui génère d'abord un audio mono avant d'effectuer une spatialisation, entraînant souvent une accumulation d'erreurs et des incohérences spatio-temporelles. Pour remédier à cette limitation, nous introduisons la tâche de génération binaurale d'audio spatial de bout en bout directement à partir d'une vidéo silencieuse. Pour soutenir cette tâche, nous présentons le jeu de données BiAudio, comprenant environ 97 000 paires vidéo-audio binaurales couvrant diverses scènes du monde réel et trajectoires de rotation de caméra, construit grâce à un pipeline semi-automatisé. De plus, nous proposons ViSAudio, un framework de bout en bout qui utilise un appariement de flux conditionnel avec une architecture de génération audio à double branche, où deux branches dédiées modélisent les flux latents audio. Intégré à un module conditionnel espace-temps, il équilibre la cohérence entre les canaux tout en préservant les caractéristiques spatiales distinctives, garantissant un alignement spatio-temporel précis entre l'audio et la vidéo d'entrée. Des expériences approfondies démontrent que ViSAudio surpasse les méthodes état de l'art existantes à la fois sur les métriques objectives et les évaluations subjectives, générant un audio binaural de haute qualité avec une immersion spatiale qui s'adapte efficacement aux changements de point de vue, au mouvement des sources sonores et aux divers environnements acoustiques. Site web du projet : https://kszpxxzmc.github.io/ViSAudio-project.
English
Despite progress in video-to-audio generation, the field focuses predominantly on mono output, lacking spatial immersion. Existing binaural approaches remain constrained by a two-stage pipeline that first generates mono audio and then performs spatialization, often resulting in error accumulation and spatio-temporal inconsistencies. To address this limitation, we introduce the task of end-to-end binaural spatial audio generation directly from silent video. To support this task, we present the BiAudio dataset, comprising approximately 97K video-binaural audio pairs spanning diverse real-world scenes and camera rotation trajectories, constructed through a semi-automated pipeline. Furthermore, we propose ViSAudio, an end-to-end framework that employs conditional flow matching with a dual-branch audio generation architecture, where two dedicated branches model the audio latent flows. Integrated with a conditional spacetime module, it balances consistency between channels while preserving distinctive spatial characteristics, ensuring precise spatio-temporal alignment between audio and the input video. Comprehensive experiments demonstrate that ViSAudio outperforms existing state-of-the-art methods across both objective metrics and subjective evaluations, generating high-quality binaural audio with spatial immersion that adapts effectively to viewpoint changes, sound-source motion, and diverse acoustic environments. Project website: https://kszpxxzmc.github.io/ViSAudio-project.