SoundCam: Ein Datensatz zur Lokalisierung von Personen mithilfe von Raumakustik
SoundCam: A Dataset for Finding Humans Using Room Acoustics
November 6, 2023
Autoren: Mason Wang, Samuel Clarke, Jui-Hsien Wang, Ruohan Gao, Jiajun Wu
cs.AI
Zusammenfassung
Die akustischen Eigenschaften eines Raums ergeben sich aus der Geometrie des Raums, den darin befindlichen Objekten und deren spezifischen Positionen. Die akustischen Eigenschaften eines Raums können durch seine Impulsantwort (Room Impulse Response, RIR) zwischen einer Schallquelle und einem Hörerstandort charakterisiert werden oder grob aus Aufnahmen natürlicher Signale im Raum abgeleitet werden. Veränderungen in den Positionen von Objekten in einem Raum können messbare Veränderungen in den akustischen Eigenschaften des Raums bewirken, wie sie durch die RIR charakterisiert werden. Bestehende Datensätze von RIRs variieren entweder nicht systematisch die Positionen von Objekten in einer Umgebung, oder sie bestehen ausschließlich aus simulierten RIRs. Wir präsentieren SoundCam, den größten bisher veröffentlichten Datensatz einzigartiger RIRs aus realen Räumen. Er umfasst 5.000 10-Kanal-Messungen von Raumimpulsantworten in der realen Welt und 2.000 10-Kanal-Aufnahmen von Musik in drei verschiedenen Räumen, darunter ein kontrolliertes Akustiklabor, ein realer Wohnzimmerraum und ein Konferenzraum, mit verschiedenen Personen in unterschiedlichen Positionen in jedem Raum. Wir zeigen, dass diese Messungen für interessante Aufgaben verwendet werden können, wie z. B. die Erkennung und Identifizierung von Personen sowie die Verfolgung ihrer Positionen.
English
A room's acoustic properties are a product of the room's geometry, the
objects within the room, and their specific positions. A room's acoustic
properties can be characterized by its impulse response (RIR) between a source
and listener location, or roughly inferred from recordings of natural signals
present in the room. Variations in the positions of objects in a room can
effect measurable changes in the room's acoustic properties, as characterized
by the RIR. Existing datasets of RIRs either do not systematically vary
positions of objects in an environment, or they consist of only simulated RIRs.
We present SoundCam, the largest dataset of unique RIRs from in-the-wild rooms
publicly released to date. It includes 5,000 10-channel real-world measurements
of room impulse responses and 2,000 10-channel recordings of music in three
different rooms, including a controlled acoustic lab, an in-the-wild living
room, and a conference room, with different humans in positions throughout each
room. We show that these measurements can be used for interesting tasks, such
as detecting and identifying humans, and tracking their positions.