AV-GS: Aprendizaje de Priors Conscientes de Material y Geometría para la Síntesis Acústica de Nuevas Vistas
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis
June 13, 2024
Autores: Swapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu
cs.AI
Resumen
La síntesis acústica de vistas novedosas (NVAS, por sus siglas en inglés) tiene como objetivo renderizar audio binaural desde cualquier punto de vista objetivo, dado un audio mono emitido por una fuente de sonido en una escena 3D. Los métodos existentes han propuesto modelos implícitos basados en NeRF para aprovechar las señales visuales como condición para sintetizar audio binaural. Sin embargo, además de la baja eficiencia derivada del intenso renderizado de NeRF, estos métodos tienen una capacidad limitada para caracterizar todo el entorno de la escena, como la geometría de la habitación, las propiedades de los materiales y la relación espacial entre el oyente y la fuente de sonido. Para abordar estos problemas, proponemos un nuevo modelo de Dispersión Gaussiana Audio-Visual (AV-GS). Para obtener una condición consciente de los materiales y la geometría para la síntesis de audio, aprendemos una representación explícita de la escena basada en puntos con un parámetro de guía de audio en puntos Gaussianos inicializados localmente, teniendo en cuenta la relación espacial entre el oyente y la fuente de sonido. Para hacer que el modelo de escena visual sea adaptable al audio, proponemos una estrategia de densificación y poda de puntos para distribuir óptimamente los puntos Gaussianos, considerando la contribución por punto en la propagación del sonido (por ejemplo, se necesitan más puntos para superficies de paredes sin textura, ya que afectan la desviación de la trayectoria del sonido). Experimentos extensos validan la superioridad de nuestro AV-GS sobre las alternativas existentes en los conjuntos de datos RWAS del mundo real y SoundSpaces basados en simulación.
English
Novel view acoustic synthesis (NVAS) aims to render binaural audio at any
target viewpoint, given a mono audio emitted by a sound source at a 3D scene.
Existing methods have proposed NeRF-based implicit models to exploit visual
cues as a condition for synthesizing binaural audio. However, in addition to
low efficiency originating from heavy NeRF rendering, these methods all have a
limited ability of characterizing the entire scene environment such as room
geometry, material properties, and the spatial relation between the listener
and sound source. To address these issues, we propose a novel Audio-Visual
Gaussian Splatting (AV-GS) model. To obtain a material-aware and geometry-aware
condition for audio synthesis, we learn an explicit point-based scene
representation with an audio-guidance parameter on locally initialized Gaussian
points, taking into account the space relation from the listener and sound
source. To make the visual scene model audio adaptive, we propose a point
densification and pruning strategy to optimally distribute the Gaussian points,
with the per-point contribution in sound propagation (e.g., more points needed
for texture-less wall surfaces as they affect sound path diversion). Extensive
experiments validate the superiority of our AV-GS over existing alternatives on
the real-world RWAS and simulation-based SoundSpaces datasets.Summary
AI-Generated Summary