ViSAudio: 종단 간 비디오 기반 바이노럴 공간 음향 생성
ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation
December 2, 2025
저자: Mengchen Zhang, Qi Chen, Tong Wu, Zihan Liu, Dahua Lin
cs.AI
초록
비디오-오디오 생성 기술의 발전에도 불구하고, 해당 분야는 주로 모노 오디오 출력에 집중하여 공간적 몰입감이 부족한 실정입니다. 기존의 바이노럴(binaural) 방식은 모노 오디오를 먼저 생성한 후 공간화(spatialization)를 수행하는 2단계 파이프라인에 제한되어 있어, 오류 누적 및 시공간적 불일치가 자주 발생합니다. 이러한 한계를 해결하기 위해 우리는 무음 비디오로부터 직접 엔드투엔드(end-to-end) 방식의 바이노럴 공간 오디오 생성을 위한 새로운 과제를 제안합니다. 이 과제를 지원하기 위해 반자동화 파이프라인을 통해 구축된, 다양한 실제 세계 장면과 카메라 회전 궤적을 포함하는 약 97,000개의 비디오-바이노럴 오디오 쌍으로 구성된 BiAudio 데이터셋을 선보입니다. 더 나아가, 조건부 플로우 매칭(conditional flow matching)을 채택하고 두 개의 전용 브랜치가 오디오 잠재 흐름(latent flow)을 모델링하는 이중 브랜치 오디오 생성 아키텍처를 가진 엔드투엔드 프레임워크인 ViSAudio를 제안합니다. 조건부 시공간(spacetime) 모듈과 통합된 이 프레임워크는 독특한 공간 특성을 보존하면서 채널 간 일관성을 균형 있게 조절하여 오디오와 입력 비디오 간의 정확한 시공간적 정렬을 보장합니다. 포괄적인 실험을 통해 ViSAudio가 객관적 지표와 주관적 평가 모두에서 기존 최신 방법들을 능가하며, 시점 변화, 음원 이동, 다양한 음향 환경에 효과적으로 적응하는 공간적 몰입감을 지닌 고품질 바이노럴 오디오를 생성함을 입증합니다. 프로젝트 웹사이트: https://kszpxxzmc.github.io/ViSAudio-project.
English
Despite progress in video-to-audio generation, the field focuses predominantly on mono output, lacking spatial immersion. Existing binaural approaches remain constrained by a two-stage pipeline that first generates mono audio and then performs spatialization, often resulting in error accumulation and spatio-temporal inconsistencies. To address this limitation, we introduce the task of end-to-end binaural spatial audio generation directly from silent video. To support this task, we present the BiAudio dataset, comprising approximately 97K video-binaural audio pairs spanning diverse real-world scenes and camera rotation trajectories, constructed through a semi-automated pipeline. Furthermore, we propose ViSAudio, an end-to-end framework that employs conditional flow matching with a dual-branch audio generation architecture, where two dedicated branches model the audio latent flows. Integrated with a conditional spacetime module, it balances consistency between channels while preserving distinctive spatial characteristics, ensuring precise spatio-temporal alignment between audio and the input video. Comprehensive experiments demonstrate that ViSAudio outperforms existing state-of-the-art methods across both objective metrics and subjective evaluations, generating high-quality binaural audio with spatial immersion that adapts effectively to viewpoint changes, sound-source motion, and diverse acoustic environments. Project website: https://kszpxxzmc.github.io/ViSAudio-project.