ViSAudio: Geração de Áudio Espacial Binaural Baseada em Vídeo de Ponta a Ponta
ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation
December 2, 2025
Autores: Mengchen Zhang, Qi Chen, Tong Wu, Zihan Liu, Dahua Lin
cs.AI
Resumo
Apesar dos avanços na geração de áudio a partir de vídeo, a área concentra-se predominantemente na produção de áudio mono, carecendo de imersão espacial. As abordagens binaurais existentes permanecem limitadas por um pipeline de duas etapas que primeiro gera áudio mono e depois realiza a espacialização, frequentemente resultando em acumulação de erros e inconsistências espaço-temporais. Para superar esta limitação, introduzimos a tarefa de geração de áudio espacial binaural de forma integral (end-to-end) diretamente a partir de vídeo silencioso. Para suportar esta tarefa, apresentamos o conjunto de dados BiAudio, composto por aproximadamente 97 mil pares de vídeo-áudio binaural abrangendo diversas cenas do mundo real e trajetórias de rotação de câmera, construído através de um pipeline semiautomatizado. Adicionalmente, propomos o ViSAudio, um framework integral que emprega correspondência de fluxo condicional (conditional flow matching) com uma arquitetura de geração de áudio de ramificação dupla, na qual dois ramos dedicados modelam os fluxos latentes de áudio. Integrado com um módulo condicional de espaço-tempo, ele equilibra a consistência entre os canais enquanto preserva características espaciais distintivas, garantindo um alinhamento espaço-temporal preciso entre o áudio e o vídeo de entrada. Experimentos abrangentes demonstram que o ViSAudio supera os métodos state-of-the-art existentes tanto em métricas objetivas quanto em avaliações subjetivas, gerando áudio binaural de alta qualidade com imersão espacial que se adapta eficazmente a mudanças de ponto de vista, movimento da fonte sonora e diversos ambientes acústicos. Site do projeto: https://kszpxxzmc.github.io/ViSAudio-project.
English
Despite progress in video-to-audio generation, the field focuses predominantly on mono output, lacking spatial immersion. Existing binaural approaches remain constrained by a two-stage pipeline that first generates mono audio and then performs spatialization, often resulting in error accumulation and spatio-temporal inconsistencies. To address this limitation, we introduce the task of end-to-end binaural spatial audio generation directly from silent video. To support this task, we present the BiAudio dataset, comprising approximately 97K video-binaural audio pairs spanning diverse real-world scenes and camera rotation trajectories, constructed through a semi-automated pipeline. Furthermore, we propose ViSAudio, an end-to-end framework that employs conditional flow matching with a dual-branch audio generation architecture, where two dedicated branches model the audio latent flows. Integrated with a conditional spacetime module, it balances consistency between channels while preserving distinctive spatial characteristics, ensuring precise spatio-temporal alignment between audio and the input video. Comprehensive experiments demonstrate that ViSAudio outperforms existing state-of-the-art methods across both objective metrics and subjective evaluations, generating high-quality binaural audio with spatial immersion that adapts effectively to viewpoint changes, sound-source motion, and diverse acoustic environments. Project website: https://kszpxxzmc.github.io/ViSAudio-project.