AV-GS: Het leren van materiaal- en geometriebewuste prioriteiten voor de synthese van nieuwe akoestische perspectieven
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis
June 13, 2024
Auteurs: Swapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu
cs.AI
Samenvatting
Nieuwe weergave akoestische synthese (NVAS) heeft als doel binauraal audio te renderen vanuit elk doelstandpunt, gegeven een mono-audio die wordt uitgezonden door een geluidsbron in een 3D-scène. Bestaande methoden hebben NeRF-gebaseerde impliciete modellen voorgesteld om visuele aanwijzingen te gebruiken als voorwaarde voor het synthetiseren van binauraal audio. Echter, naast de lage efficiëntie die voortkomt uit zware NeRF-rendering, hebben deze methoden allemaal een beperkt vermogen om de gehele scèneomgeving te karakteriseren, zoals ruimtegeometrie, materiaaleigenschappen en de ruimtelijke relatie tussen de luisteraar en de geluidsbron. Om deze problemen aan te pakken, stellen we een nieuw Audio-Visueel Gaussian Splatting (AV-GS) model voor. Om een materiaal- en geometriebewuste voorwaarde te verkrijgen voor audiosynthese, leren we een expliciete puntgebaseerde scèneweergave met een audio-geleidingsparameter op lokaal geïnitialiseerde Gaussische punten, waarbij rekening wordt gehouden met de ruimtelijke relatie tussen de luisteraar en de geluidsbron. Om het visuele scènemodel audio-adaptief te maken, stellen we een strategie voor puntverdichting en -snoei voor om de Gaussische punten optimaal te verdelen, met de per-punt bijdrage in geluidsvoortplanting (bijvoorbeeld meer punten nodig voor textuurloze wandoppervlakken omdat ze de geluidsbaanafbuiging beïnvloeden). Uitgebreide experimenten valideren de superioriteit van onze AV-GS ten opzichte van bestaande alternatieven op de real-world RWAS en de simulatiegebaseerde SoundSpaces datasets.
English
Novel view acoustic synthesis (NVAS) aims to render binaural audio at any
target viewpoint, given a mono audio emitted by a sound source at a 3D scene.
Existing methods have proposed NeRF-based implicit models to exploit visual
cues as a condition for synthesizing binaural audio. However, in addition to
low efficiency originating from heavy NeRF rendering, these methods all have a
limited ability of characterizing the entire scene environment such as room
geometry, material properties, and the spatial relation between the listener
and sound source. To address these issues, we propose a novel Audio-Visual
Gaussian Splatting (AV-GS) model. To obtain a material-aware and geometry-aware
condition for audio synthesis, we learn an explicit point-based scene
representation with an audio-guidance parameter on locally initialized Gaussian
points, taking into account the space relation from the listener and sound
source. To make the visual scene model audio adaptive, we propose a point
densification and pruning strategy to optimally distribute the Gaussian points,
with the per-point contribution in sound propagation (e.g., more points needed
for texture-less wall surfaces as they affect sound path diversion). Extensive
experiments validate the superiority of our AV-GS over existing alternatives on
the real-world RWAS and simulation-based SoundSpaces datasets.