ViSAudio: End-to-End Video-gesteuerte Erzeugung binauraler räumlicher Audioinhalte
ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation
December 2, 2025
papers.authors: Mengchen Zhang, Qi Chen, Tong Wu, Zihan Liu, Dahua Lin
cs.AI
papers.abstract
Trotz Fortschritten in der Video-Audio-Generierung konzentriert sich das Feld überwiegend auf Mono-Ausgaben und mangelt es an räumlicher Immersion. Bestehende binaurale Ansätze bleiben durch eine Zwei-Stufen-Pipeline eingeschränkt, die zunächst Mono-Audio erzeugt und anschließend eine Räumlichkeitsdarstellung durchführt, was oft zu Fehlerakkumulation und raumzeitlichen Inkonsistenzen führt. Um diese Einschränkung zu adressieren, führen wir die Aufgabe der end-to-end binauralen räumlichen Audiogenerierung direkt aus stummem Video ein. Zur Unterstützung dieser Aufgabe stellen wir den BiAudio-Datensatz vor, der etwa 97.000 Video-binaurale Audio-Paare umfasst, die verschiedene realweltliche Szenen und Kamerarotations-Trajektorien abdecken und durch eine semi-automatisierte Pipeline erstellt wurden. Darüber hinaus schlagen wir ViSAudio vor, ein End-to-End-Framework, das conditional Flow Matching mit einer Dual-Branch-Audiogenerierungsarchitektur einsetzt, wobei zwei dedizierte Zweige die audio-latenten Flüsse modellieren. Integriert mit einem conditional Spacetime-Modul balanciert es die Konsistenz zwischen den Kanälen unter Beibehaltung distinctiver räumlicher Charakteristiken und gewährleistet so eine präzise raumzeitliche Ausrichtung zwischen Audio und dem Eingabevideo. Umfassende Experimente zeigen, dass ViSAudio bestehende state-of-the-art Methoden in objektiven Metriken und subjektiven Evaluationen übertrifft und hochwertigen binauralen Audio mit räumlicher Immersion erzeugt, der sich effektiv an Blickwinkeländerungen, Schallquellenbewegung und diverse akustische Umgebungen anpasst. Projektwebsite: https://kszpxxzmc.github.io/ViSAudio-project.
English
Despite progress in video-to-audio generation, the field focuses predominantly on mono output, lacking spatial immersion. Existing binaural approaches remain constrained by a two-stage pipeline that first generates mono audio and then performs spatialization, often resulting in error accumulation and spatio-temporal inconsistencies. To address this limitation, we introduce the task of end-to-end binaural spatial audio generation directly from silent video. To support this task, we present the BiAudio dataset, comprising approximately 97K video-binaural audio pairs spanning diverse real-world scenes and camera rotation trajectories, constructed through a semi-automated pipeline. Furthermore, we propose ViSAudio, an end-to-end framework that employs conditional flow matching with a dual-branch audio generation architecture, where two dedicated branches model the audio latent flows. Integrated with a conditional spacetime module, it balances consistency between channels while preserving distinctive spatial characteristics, ensuring precise spatio-temporal alignment between audio and the input video. Comprehensive experiments demonstrate that ViSAudio outperforms existing state-of-the-art methods across both objective metrics and subjective evaluations, generating high-quality binaural audio with spatial immersion that adapts effectively to viewpoint changes, sound-source motion, and diverse acoustic environments. Project website: https://kszpxxzmc.github.io/ViSAudio-project.