AV-GS: Aprendizado de Priors Conscientes de Materiais e Geometria para Síntese Acústica de Novas Perspectivas
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis
June 13, 2024
Autores: Swapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu
cs.AI
Resumo
A síntese acústica de novas perspectivas (NVAS) tem como objetivo renderizar áudio binaural em qualquer ponto de vista alvo, dado um áudio mono emitido por uma fonte sonora em uma cena 3D. Métodos existentes propuseram modelos implícitos baseados em NeRF para explorar pistas visuais como condição para a síntese de áudio binaural. No entanto, além da baixa eficiência decorrente da pesada renderização do NeRF, esses métodos têm uma capacidade limitada de caracterizar todo o ambiente da cena, como a geometria da sala, propriedades dos materiais e a relação espacial entre o ouvinte e a fonte sonora. Para resolver esses problemas, propomos um novo modelo de Audio-Visual Gaussian Splatting (AV-GS). Para obter uma condição consciente do material e da geometria para a síntese de áudio, aprendemos uma representação explícita da cena baseada em pontos com um parâmetro de orientação de áudio em pontos Gaussianos inicializados localmente, levando em consideração a relação espacial do ouvinte e da fonte sonora. Para tornar o modelo de cena visual adaptável ao áudio, propomos uma estratégia de densificação e poda de pontos para distribuir de forma ótima os pontos Gaussianos, com a contribuição por ponto na propagação do som (por exemplo, mais pontos são necessários para superfícies de parede sem textura, pois afetam o desvio do caminho do som). Experimentos extensivos validam a superioridade do nosso AV-GS sobre as alternativas existentes nos conjuntos de dados RWAS do mundo real e SoundSpaces baseados em simulação.
English
Novel view acoustic synthesis (NVAS) aims to render binaural audio at any
target viewpoint, given a mono audio emitted by a sound source at a 3D scene.
Existing methods have proposed NeRF-based implicit models to exploit visual
cues as a condition for synthesizing binaural audio. However, in addition to
low efficiency originating from heavy NeRF rendering, these methods all have a
limited ability of characterizing the entire scene environment such as room
geometry, material properties, and the spatial relation between the listener
and sound source. To address these issues, we propose a novel Audio-Visual
Gaussian Splatting (AV-GS) model. To obtain a material-aware and geometry-aware
condition for audio synthesis, we learn an explicit point-based scene
representation with an audio-guidance parameter on locally initialized Gaussian
points, taking into account the space relation from the listener and sound
source. To make the visual scene model audio adaptive, we propose a point
densification and pruning strategy to optimally distribute the Gaussian points,
with the per-point contribution in sound propagation (e.g., more points needed
for texture-less wall surfaces as they affect sound path diversion). Extensive
experiments validate the superiority of our AV-GS over existing alternatives on
the real-world RWAS and simulation-based SoundSpaces datasets.