ChatPaper.aiChatPaper

ViSAudio: End-to-End Video-gestuurde Generatie van Binauraal Ruimtelijk Geluid

ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation

December 2, 2025
Auteurs: Mengchen Zhang, Qi Chen, Tong Wu, Zihan Liu, Dahua Lin
cs.AI

Samenvatting

Ondanks vooruitgang in video-naar-audio-generatie richt het vakgebied zich voornamelijk op mono-uitvoer, wat ruimtelijke immersie mist. Bestaande binaurale benaderingen blijven beperkt door een pijplijn in twee fasen die eerst mono-audio genereert en vervolgens spatialisatie uitvoert, wat vaak leidt tot foutaccumulatie en spatio-temporele inconsistenties. Om deze beperking aan te pakken, introduceren we de taak van end-to-end binaurale ruimtelijke audiogeneratie rechtstreeks vanuit stille video. Om deze taak te ondersteunen, presenteren we de BiAudio-dataset, bestaande uit ongeveer 97K video-binaurale audioparen die diverse real-world scènes en camerarotatietrajecten omvatten, opgebouwd via een semi-gestandaardiseerde pijplijn. Verder stellen we ViSAudio voor, een end-to-end raamwerk dat conditionele flow matching gebruikt met een dual-branch audiogeneratie-architectuur, waarin twee toegewijde takken de audio latente flows modelleren. Geïntegreerd met een conditionele ruimtetijdmodule, balanceert het de consistentie tussen kanalen terwijl onderscheidende ruimtelijke kenmerken behouden blijven, waardoor een precieze spatio-temporele uitlijning tussen audio en de invoervideo wordt gegarandeerd. Uitgebreide experimenten tonen aan dat ViSAudio superieur presteert ten opzichte van bestaande state-of-the-art methoden in zowel objectieve metrieken als subjectieve evaluaties, en hoogwaardige binaurale audio genereert met ruimtelijke immersie die effectief adapteert aan viewpointveranderingen, geluidsbronbeweging en diverse akoestische omgevingen. Projectwebsite: https://kszpxxzmc.github.io/ViSAudio-project.
English
Despite progress in video-to-audio generation, the field focuses predominantly on mono output, lacking spatial immersion. Existing binaural approaches remain constrained by a two-stage pipeline that first generates mono audio and then performs spatialization, often resulting in error accumulation and spatio-temporal inconsistencies. To address this limitation, we introduce the task of end-to-end binaural spatial audio generation directly from silent video. To support this task, we present the BiAudio dataset, comprising approximately 97K video-binaural audio pairs spanning diverse real-world scenes and camera rotation trajectories, constructed through a semi-automated pipeline. Furthermore, we propose ViSAudio, an end-to-end framework that employs conditional flow matching with a dual-branch audio generation architecture, where two dedicated branches model the audio latent flows. Integrated with a conditional spacetime module, it balances consistency between channels while preserving distinctive spatial characteristics, ensuring precise spatio-temporal alignment between audio and the input video. Comprehensive experiments demonstrate that ViSAudio outperforms existing state-of-the-art methods across both objective metrics and subjective evaluations, generating high-quality binaural audio with spatial immersion that adapts effectively to viewpoint changes, sound-source motion, and diverse acoustic environments. Project website: https://kszpxxzmc.github.io/ViSAudio-project.
PDF201December 4, 2025