AV-GS: Apprendimento di Priorità Consapevoli di Materiale e Geometria per la Sintesi Acustica di Nuove Visualizzazioni
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis
June 13, 2024
Autori: Swapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu
cs.AI
Abstract
La sintesi acustica di nuove viste (NVAS) mira a generare audio binaurale da qualsiasi punto di vista target, dato un audio mono emesso da una sorgente sonora in una scena 3D. I metodi esistenti hanno proposto modelli impliciti basati su NeRF per sfruttare gli indizi visivi come condizione per sintetizzare l'audio binaurale. Tuttavia, oltre alla bassa efficienza derivante dal rendering pesante di NeRF, questi metodi hanno tutti una capacità limitata di caratterizzare l'intero ambiente della scena, come la geometria della stanza, le proprietà dei materiali e la relazione spaziale tra l'ascoltatore e la sorgente sonora. Per affrontare questi problemi, proponiamo un nuovo modello Audio-Visual Gaussian Splatting (AV-GS). Per ottenere una condizione consapevole dei materiali e della geometria per la sintesi audio, apprendiamo una rappresentazione esplicita della scena basata su punti con un parametro di guida audio su punti Gaussiani inizializzati localmente, tenendo conto della relazione spaziale tra l'ascoltatore e la sorgente sonora. Per rendere il modello della scena visiva adattivo all'audio, proponiamo una strategia di densificazione e potatura dei punti per distribuire in modo ottimale i punti Gaussiani, con il contributo per punto nella propagazione del suono (ad esempio, sono necessari più punti per le superfici delle pareti senza texture poiché influenzano la deviazione del percorso sonoro). Esperimenti estensivi convalidano la superiorità del nostro AV-GS rispetto alle alternative esistenti sui dataset reali RWAS e simulati SoundSpaces.
English
Novel view acoustic synthesis (NVAS) aims to render binaural audio at any
target viewpoint, given a mono audio emitted by a sound source at a 3D scene.
Existing methods have proposed NeRF-based implicit models to exploit visual
cues as a condition for synthesizing binaural audio. However, in addition to
low efficiency originating from heavy NeRF rendering, these methods all have a
limited ability of characterizing the entire scene environment such as room
geometry, material properties, and the spatial relation between the listener
and sound source. To address these issues, we propose a novel Audio-Visual
Gaussian Splatting (AV-GS) model. To obtain a material-aware and geometry-aware
condition for audio synthesis, we learn an explicit point-based scene
representation with an audio-guidance parameter on locally initialized Gaussian
points, taking into account the space relation from the listener and sound
source. To make the visual scene model audio adaptive, we propose a point
densification and pruning strategy to optimally distribute the Gaussian points,
with the per-point contribution in sound propagation (e.g., more points needed
for texture-less wall surfaces as they affect sound path diversion). Extensive
experiments validate the superiority of our AV-GS over existing alternatives on
the real-world RWAS and simulation-based SoundSpaces datasets.