AV-GS: Lernen von material- und geometriebewussten Voraussetzungen für die Synthese neuartiger Ansichten in der Akustik
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis
June 13, 2024
Autoren: Swapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu
cs.AI
Zusammenfassung
Die neuartige Ansicht der akustischen Synthese (NVAS) zielt darauf ab, binaurale Audioausgaben aus einer Mono-Audioquelle in einer 3D-Szene an einem beliebigen Zielpunkt zu erzeugen. Bestehende Methoden haben NeRF-basierte implizite Modelle vorgeschlagen, um visuelle Hinweise als Bedingung für die Synthese von binauralen Audiodaten zu nutzen. Allerdings haben diese Methoden alle eine begrenzte Fähigkeit, die gesamte Szenenumgebung, wie Raumgeometrie, Materialeigenschaften und die räumliche Beziehung zwischen Zuhörer und Schallquelle, zu charakterisieren, zusätzlich zur geringen Effizienz aufgrund der aufwendigen NeRF-Renderings. Um diese Probleme anzugehen, schlagen wir ein neuartiges Audio-Visuelles Gaußsches Splatting (AV-GS) Modell vor. Um eine material- und geometriebewusste Bedingung für die Audio-Synthese zu erhalten, lernen wir eine explizite punktbasierte Szenenrepräsentation mit einem audiogeführten Parameter auf lokal initialisierten gaußschen Punkten, unter Berücksichtigung der räumlichen Beziehung zwischen Zuhörer und Schallquelle. Um das visuelle Szenenmodell audioadaptiv zu gestalten, schlagen wir eine Punktdichtungs- und Beschneidungsstrategie vor, um die gaußschen Punkte optimal zu verteilen, wobei der Beitrag pro Punkt in der Schallausbreitung berücksichtigt wird (z. B. werden mehr Punkte für texturlose Wandflächen benötigt, da sie die Schallwegabweichung beeinflussen). Umfangreiche Experimente bestätigen die Überlegenheit unseres AV-GS gegenüber bestehenden Alternativen in den realen RWAS- und simulationsbasierten SoundSpaces-Datensätzen.
English
Novel view acoustic synthesis (NVAS) aims to render binaural audio at any
target viewpoint, given a mono audio emitted by a sound source at a 3D scene.
Existing methods have proposed NeRF-based implicit models to exploit visual
cues as a condition for synthesizing binaural audio. However, in addition to
low efficiency originating from heavy NeRF rendering, these methods all have a
limited ability of characterizing the entire scene environment such as room
geometry, material properties, and the spatial relation between the listener
and sound source. To address these issues, we propose a novel Audio-Visual
Gaussian Splatting (AV-GS) model. To obtain a material-aware and geometry-aware
condition for audio synthesis, we learn an explicit point-based scene
representation with an audio-guidance parameter on locally initialized Gaussian
points, taking into account the space relation from the listener and sound
source. To make the visual scene model audio adaptive, we propose a point
densification and pruning strategy to optimally distribute the Gaussian points,
with the per-point contribution in sound propagation (e.g., more points needed
for texture-less wall surfaces as they affect sound path diversion). Extensive
experiments validate the superiority of our AV-GS over existing alternatives on
the real-world RWAS and simulation-based SoundSpaces datasets.Summary
AI-Generated Summary