ChatPaper.aiChatPaper

ViSAudio: エンドツーエンドのビデオ駆動によるバイノーラル空間音響生成

ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation

December 2, 2025
著者: Mengchen Zhang, Qi Chen, Tong Wu, Zihan Liu, Dahua Lin
cs.AI

要旨

映像から音響を生成する技術は進歩しているものの、既存研究の多くはモノラル出力に焦点が当てられており、空間的な没入感に欠ける。現行のバイノーラル手法は、まずモノラル音声を生成し、その後空間化を行うという二段階のパイプラインに制約されており、誤差の蓄積や時空間的不整合が生じやすい。この課題を解決するため、本研究では無音映像から直接エンドツーエンドでバイノーラル空間音響を生成するタスクを提案する。このタスクを支援するため、半自動化パイプラインにより構築した、多様な実世界シーンとカメラ回転軌道を含む約97Kの映像-バイノーラル音声ペアから成るBiAudioデータセットを公開する。さらに、条件付きフローマッチングを採用したエンドツーエンドフレームワークViSAudioを開発した。本手法は二つの専用ブランチが音声潜在フローをモデル化するデュアルブランチ構造を採用し、条件付き時空間モジュールと連携することで、チャネル間の一貫性を保ちつつ特徴的な空間特性を維持し、音声と入力映像の精密な時空間整合性を確保する。包括的実験により、ViSAudioが客観指標と主観評価の両方において既存の最先端手法を凌駕し、視点変化・音源移動・多様な音響環境に適応する空間的没入感の高い高品質なバイノーラル音声を生成できることを実証した。プロジェクトサイト:https://kszpxxzmc.github.io/ViSAudio-project。
English
Despite progress in video-to-audio generation, the field focuses predominantly on mono output, lacking spatial immersion. Existing binaural approaches remain constrained by a two-stage pipeline that first generates mono audio and then performs spatialization, often resulting in error accumulation and spatio-temporal inconsistencies. To address this limitation, we introduce the task of end-to-end binaural spatial audio generation directly from silent video. To support this task, we present the BiAudio dataset, comprising approximately 97K video-binaural audio pairs spanning diverse real-world scenes and camera rotation trajectories, constructed through a semi-automated pipeline. Furthermore, we propose ViSAudio, an end-to-end framework that employs conditional flow matching with a dual-branch audio generation architecture, where two dedicated branches model the audio latent flows. Integrated with a conditional spacetime module, it balances consistency between channels while preserving distinctive spatial characteristics, ensuring precise spatio-temporal alignment between audio and the input video. Comprehensive experiments demonstrate that ViSAudio outperforms existing state-of-the-art methods across both objective metrics and subjective evaluations, generating high-quality binaural audio with spatial immersion that adapts effectively to viewpoint changes, sound-source motion, and diverse acoustic environments. Project website: https://kszpxxzmc.github.io/ViSAudio-project.
PDF201December 4, 2025