SoundCam: Un Dataset per l'Individuazione di Persone Tramite Acustica Ambientale
SoundCam: A Dataset for Finding Humans Using Room Acoustics
November 6, 2023
Autori: Mason Wang, Samuel Clarke, Jui-Hsien Wang, Ruohan Gao, Jiajun Wu
cs.AI
Abstract
Le proprietà acustiche di una stanza sono il risultato della geometria della stanza, degli oggetti al suo interno e delle loro posizioni specifiche. Le proprietà acustiche di una stanza possono essere caratterizzate dalla sua risposta all'impulso (RIR) tra una sorgente e una posizione di ascolto, o possono essere approssimativamente dedotte da registrazioni di segnali naturali presenti nella stanza. Variazioni nelle posizioni degli oggetti in una stanza possono causare cambiamenti misurabili nelle proprietà acustiche della stanza, come caratterizzato dalla RIR. I dataset esistenti di RIR non variano sistematicamente le posizioni degli oggetti in un ambiente, oppure consistono solo di RIR simulate. Presentiamo SoundCam, il più grande dataset di RIR uniche provenienti da stanze reali rilasciato pubblicamente fino ad oggi. Include 5.000 misurazioni reali a 10 canali di risposte all'impulso di stanze e 2.000 registrazioni a 10 canali di musica in tre stanze diverse, tra cui un laboratorio acustico controllato, un soggiorno reale e una sala conferenze, con diverse persone posizionate in vari punti di ciascuna stanza. Dimostriamo che queste misurazioni possono essere utilizzate per compiti interessanti, come il rilevamento e l'identificazione delle persone, e il tracciamento delle loro posizioni.
English
A room's acoustic properties are a product of the room's geometry, the
objects within the room, and their specific positions. A room's acoustic
properties can be characterized by its impulse response (RIR) between a source
and listener location, or roughly inferred from recordings of natural signals
present in the room. Variations in the positions of objects in a room can
effect measurable changes in the room's acoustic properties, as characterized
by the RIR. Existing datasets of RIRs either do not systematically vary
positions of objects in an environment, or they consist of only simulated RIRs.
We present SoundCam, the largest dataset of unique RIRs from in-the-wild rooms
publicly released to date. It includes 5,000 10-channel real-world measurements
of room impulse responses and 2,000 10-channel recordings of music in three
different rooms, including a controlled acoustic lab, an in-the-wild living
room, and a conference room, with different humans in positions throughout each
room. We show that these measurements can be used for interesting tasks, such
as detecting and identifying humans, and tracking their positions.