AV-GS: 새로운 시점 음향 합성을 위한 물질 및 기하학 인식 사전 학습
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis
June 13, 2024
저자: Swapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu
cs.AI
초록
새로운 시점 음향 합성(NVAS)은 3D 장면 내 음원에서 방출된 모노 오디오를 기반으로 특정 시점에서의 바이노럴 오디오를 렌더링하는 것을 목표로 합니다. 기존 방법들은 시각적 단서를 바이노럴 오디오 합성을 위한 조건으로 활용하기 위해 NeRF 기반의 암묵적 모델을 제안했습니다. 그러나 이러한 방법들은 NeRF 렌더링의 높은 계산 부하로 인한 비효율성뿐만 아니라, 방의 기하학적 구조, 재질 특성, 청취자와 음원 간의 공간적 관계와 같은 전체 장면 환경을 충분히 표현하는 데 한계가 있습니다. 이러한 문제를 해결하기 위해, 우리는 새로운 오디오-비주얼 가우시안 스플래팅(AV-GS) 모델을 제안합니다. 오디오 합성을 위한 재질 및 기하학적 인식 조건을 얻기 위해, 우리는 청취자와 음원 간의 공간적 관계를 고려하여 로컬로 초기화된 가우시안 포인트에 오디오 가이던스 파라미터를 적용한 명시적 포인트 기반 장면 표현을 학습합니다. 또한, 시각적 장면 모델이 오디오에 적응할 수 있도록, 우리는 가우시안 포인트의 최적 분포를 위한 포인트 밀도화 및 가지치기 전략을 제안합니다. 이는 소리 전파에서 각 포인트의 기여도를 고려하여(예: 텍스처가 없는 벽 표면은 소리 경로 편향에 영향을 미치므로 더 많은 포인트가 필요함) 수행됩니다. 광범위한 실험을 통해 우리의 AV-GS 모델이 실제 세계의 RWAS 데이터셋과 시뮬레이션 기반의 SoundSpaces 데이터셋에서 기존 대안들보다 우수함을 검증했습니다.
English
Novel view acoustic synthesis (NVAS) aims to render binaural audio at any
target viewpoint, given a mono audio emitted by a sound source at a 3D scene.
Existing methods have proposed NeRF-based implicit models to exploit visual
cues as a condition for synthesizing binaural audio. However, in addition to
low efficiency originating from heavy NeRF rendering, these methods all have a
limited ability of characterizing the entire scene environment such as room
geometry, material properties, and the spatial relation between the listener
and sound source. To address these issues, we propose a novel Audio-Visual
Gaussian Splatting (AV-GS) model. To obtain a material-aware and geometry-aware
condition for audio synthesis, we learn an explicit point-based scene
representation with an audio-guidance parameter on locally initialized Gaussian
points, taking into account the space relation from the listener and sound
source. To make the visual scene model audio adaptive, we propose a point
densification and pruning strategy to optimally distribute the Gaussian points,
with the per-point contribution in sound propagation (e.g., more points needed
for texture-less wall surfaces as they affect sound path diversion). Extensive
experiments validate the superiority of our AV-GS over existing alternatives on
the real-world RWAS and simulation-based SoundSpaces datasets.