SoundCam : Un ensemble de données pour localiser les humains à l'aide de l'acoustique des pièces
SoundCam: A Dataset for Finding Humans Using Room Acoustics
November 6, 2023
Auteurs: Mason Wang, Samuel Clarke, Jui-Hsien Wang, Ruohan Gao, Jiajun Wu
cs.AI
Résumé
Les propriétés acoustiques d'une pièce résultent de sa géométrie, des objets qu'elle contient et de leurs positions spécifiques. Ces propriétés acoustiques peuvent être caractérisées par la réponse impulsionnelle de la pièce (RIR) entre une source et un point d'écoute, ou approximativement déduites à partir d'enregistrements de signaux naturels présents dans la pièce. Les variations dans la position des objets d'une pièce peuvent entraîner des changements mesurables dans ses propriétés acoustiques, telles que caractérisées par la RIR. Les jeux de données existants de RIR ne varient pas systématiquement les positions des objets dans un environnement, ou se composent uniquement de RIR simulées. Nous présentons SoundCam, le plus grand ensemble de données de RIR uniques provenant de pièces réelles, publié à ce jour. Il comprend 5 000 mesures réelles de réponses impulsionnelles de pièce sur 10 canaux et 2 000 enregistrements de musique sur 10 canaux dans trois pièces différentes, incluant un laboratoire acoustique contrôlé, un salon réel et une salle de conférence, avec différentes personnes positionnées dans chaque pièce. Nous montrons que ces mesures peuvent être utilisées pour des tâches intéressantes, telles que la détection et l'identification des personnes, ainsi que le suivi de leurs positions.
English
A room's acoustic properties are a product of the room's geometry, the
objects within the room, and their specific positions. A room's acoustic
properties can be characterized by its impulse response (RIR) between a source
and listener location, or roughly inferred from recordings of natural signals
present in the room. Variations in the positions of objects in a room can
effect measurable changes in the room's acoustic properties, as characterized
by the RIR. Existing datasets of RIRs either do not systematically vary
positions of objects in an environment, or they consist of only simulated RIRs.
We present SoundCam, the largest dataset of unique RIRs from in-the-wild rooms
publicly released to date. It includes 5,000 10-channel real-world measurements
of room impulse responses and 2,000 10-channel recordings of music in three
different rooms, including a controlled acoustic lab, an in-the-wild living
room, and a conference room, with different humans in positions throughout each
room. We show that these measurements can be used for interesting tasks, such
as detecting and identifying humans, and tracking their positions.