ChatPaper.aiChatPaper

AV-GS : Apprentissage de connaissances préalables sur les matériaux et la géométrie pour la synthèse acoustique de nouvelles vues

AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis

June 13, 2024
Auteurs: Swapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu
cs.AI

Résumé

La synthèse acoustique de nouvelles vues (NVAS) vise à produire un audio binaural à partir de n'importe quel point de vue cible, en se basant sur un audio mono émis par une source sonore dans une scène 3D. Les méthodes existantes ont proposé des modèles implicites basés sur NeRF pour exploiter les indices visuels comme condition de synthèse de l'audio binaural. Cependant, en plus d'une faible efficacité due au rendu lourd de NeRF, ces méthodes présentent toutes une capacité limitée à caractériser l'ensemble de l'environnement de la scène, comme la géométrie de la pièce, les propriétés des matériaux et la relation spatiale entre l'auditeur et la source sonore. Pour résoudre ces problèmes, nous proposons un nouveau modèle de projection gaussienne audio-visuelle (AV-GS). Pour obtenir une condition prenant en compte les matériaux et la géométrie pour la synthèse audio, nous apprenons une représentation explicite de la scène basée sur des points, avec un paramètre d'orientation audio sur des points gaussiens initialisés localement, en tenant compte de la relation spatiale entre l'auditeur et la source sonore. Pour rendre le modèle de scène visuelle adaptatif à l'audio, nous proposons une stratégie de densification et d'élagage des points afin de distribuer de manière optimale les points gaussiens, en fonction de leur contribution individuelle à la propagation du son (par exemple, davantage de points sont nécessaires pour les surfaces murales sans texture, car elles affectent la déviation du trajet sonore). Des expériences approfondies valident la supériorité de notre AV-GS par rapport aux alternatives existantes sur les ensembles de données RWAS en monde réel et SoundSpaces basé sur la simulation.
English
Novel view acoustic synthesis (NVAS) aims to render binaural audio at any target viewpoint, given a mono audio emitted by a sound source at a 3D scene. Existing methods have proposed NeRF-based implicit models to exploit visual cues as a condition for synthesizing binaural audio. However, in addition to low efficiency originating from heavy NeRF rendering, these methods all have a limited ability of characterizing the entire scene environment such as room geometry, material properties, and the spatial relation between the listener and sound source. To address these issues, we propose a novel Audio-Visual Gaussian Splatting (AV-GS) model. To obtain a material-aware and geometry-aware condition for audio synthesis, we learn an explicit point-based scene representation with an audio-guidance parameter on locally initialized Gaussian points, taking into account the space relation from the listener and sound source. To make the visual scene model audio adaptive, we propose a point densification and pruning strategy to optimally distribute the Gaussian points, with the per-point contribution in sound propagation (e.g., more points needed for texture-less wall surfaces as they affect sound path diversion). Extensive experiments validate the superiority of our AV-GS over existing alternatives on the real-world RWAS and simulation-based SoundSpaces datasets.

Summary

AI-Generated Summary

PDF71December 6, 2024