Vibravox: Een dataset van Franse spraak vastgelegd met lichaamsoverdracht-audiosensoren
Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors
July 16, 2024
Auteurs: Julien Hauret, Malo Olivier, Thomas Joubaud, Christophe Langrenne, Sarah Poirée, Véronique Zimpfer, Éric Bavu
cs.AI
Samenvatting
Vibravox is een dataset die voldoet aan de Algemene Verordening Gegevensbescherming (AVG) en audiobestanden bevat die zijn opgenomen met vijf verschillende lichaamsoverdracht-audiosensoren: twee in-ear microfoons, twee botgeleidingsvibratie-opnemers en een laryngofoon. De dataset omvat ook audiodata van een luchtgeleide microfoon die als referentie wordt gebruikt. Het Vibravox-corpus bevat 38 uur aan spraakmonsters en fysiologische geluiden, opgenomen door 188 deelnemers onder verschillende akoestische omstandigheden die zijn opgelegd door een hoogwaardige ambisonics 3D-spatializer. Annotaties over de opnameomstandigheden en linguïstische transcripties zijn eveneens opgenomen in het corpus. We hebben een reeks experimenten uitgevoerd voor diverse spraakgerelateerde taken, waaronder spraakherkenning, spraakverbetering en sprekersverificatie. Deze experimenten zijn uitgevoerd met state-of-the-art modellen om hun prestaties te evalueren en te vergelijken op signalen die zijn vastgelegd door de verschillende audiosensoren die de Vibravox-dataset biedt, met als doel een beter inzicht te krijgen in hun individuele kenmerken.
English
Vibravox is a dataset compliant with the General Data Protection Regulation
(GDPR) containing audio recordings using five different body-conduction audio
sensors : two in-ear microphones, two bone conduction vibration pickups and a
laryngophone. The data set also includes audio data from an airborne microphone
used as a reference. The Vibravox corpus contains 38 hours of speech samples
and physiological sounds recorded by 188 participants under different acoustic
conditions imposed by an high order ambisonics 3D spatializer. Annotations
about the recording conditions and linguistic transcriptions are also included
in the corpus. We conducted a series of experiments on various speech-related
tasks, including speech recognition, speech enhancement and speaker
verification. These experiments were carried out using state-of-the-art models
to evaluate and compare their performances on signals captured by the different
audio sensors offered by the Vibravox dataset, with the aim of gaining a better
grasp of their individual characteristics.