ChatPaper.aiChatPaper

ViSAudio: Generazione di Audio Spaziale Binaurale End-to-End Guidata da Video

ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation

December 2, 2025
Autori: Mengchen Zhang, Qi Chen, Tong Wu, Zihan Liu, Dahua Lin
cs.AI

Abstract

Nonostante i progressi nella generazione audio da video, il campo si concentra prevalentemente sull'output mono, mancando di immersività spaziale. Gli approcci binaurali esistenti rimangono vincolati a una pipeline in due fasi che genera prima l'audio mono e successivamente effettua la spazializzazione, con conseguente accumulo di errori e incoerenze spazio-temporali. Per superare questa limitazione, introduciamo il compito di generazione audio binaurale spaziale end-to-end direttamente da video silenziosi. A supporto di questo compito, presentiamo il dataset BiAudio, comprendente circa 97.000 coppie video-audio binaurale che abbracciano scenari del mondo reale e traiettorie di rotazione della fotocamera diversificati, costruito tramite una pipeline semi-automatizzata. Inoltre, proponiamo ViSAudio, un framework end-to-end che impiega il conditional flow matching con un'architettura di generazione audio a doppio ramo, in cui due rami dedicati modellano i flussi latenti audio. Integrato con un modulo condizionato spazio-temporale, esso bilancia la coerenza tra i canali preservando al contempo le caratteristiche spaziali distintive, garantendo un allineamento spazio-temporale preciso tra l'audio e il video in input. Esperimenti esaustivi dimostrano che ViSAudio supera i metodi state-of-the-art esistenti sia nelle metriche oggettive che nelle valutazioni soggettive, generando audio binaurale di alta qualità con immersività spaziale che si adatta efficacemente ai cambiamenti del punto di vista, al movimento delle sorgenti sonore e a diversi ambienti acustici. Sito web del progetto: https://kszpxxzmc.github.io/ViSAudio-project.
English
Despite progress in video-to-audio generation, the field focuses predominantly on mono output, lacking spatial immersion. Existing binaural approaches remain constrained by a two-stage pipeline that first generates mono audio and then performs spatialization, often resulting in error accumulation and spatio-temporal inconsistencies. To address this limitation, we introduce the task of end-to-end binaural spatial audio generation directly from silent video. To support this task, we present the BiAudio dataset, comprising approximately 97K video-binaural audio pairs spanning diverse real-world scenes and camera rotation trajectories, constructed through a semi-automated pipeline. Furthermore, we propose ViSAudio, an end-to-end framework that employs conditional flow matching with a dual-branch audio generation architecture, where two dedicated branches model the audio latent flows. Integrated with a conditional spacetime module, it balances consistency between channels while preserving distinctive spatial characteristics, ensuring precise spatio-temporal alignment between audio and the input video. Comprehensive experiments demonstrate that ViSAudio outperforms existing state-of-the-art methods across both objective metrics and subjective evaluations, generating high-quality binaural audio with spatial immersion that adapts effectively to viewpoint changes, sound-source motion, and diverse acoustic environments. Project website: https://kszpxxzmc.github.io/ViSAudio-project.
PDF201December 4, 2025