ChatPaper.aiChatPaper

Vibravox: Een dataset van Franse spraak vastgelegd met lichaamsoverdracht-audiosensoren

Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors

July 16, 2024
Auteurs: Julien Hauret, Malo Olivier, Thomas Joubaud, Christophe Langrenne, Sarah Poirée, Véronique Zimpfer, Éric Bavu
cs.AI

Samenvatting

Vibravox is een dataset die voldoet aan de Algemene Verordening Gegevensbescherming (AVG) en audiobestanden bevat die zijn opgenomen met vijf verschillende lichaamsoverdracht-audiosensoren: twee in-ear microfoons, twee botgeleidingsvibratie-opnemers en een laryngofoon. De dataset omvat ook audiodata van een luchtgeleide microfoon die als referentie wordt gebruikt. Het Vibravox-corpus bevat 38 uur aan spraakmonsters en fysiologische geluiden, opgenomen door 188 deelnemers onder verschillende akoestische omstandigheden die zijn opgelegd door een hoogwaardige ambisonics 3D-spatializer. Annotaties over de opnameomstandigheden en linguïstische transcripties zijn eveneens opgenomen in het corpus. We hebben een reeks experimenten uitgevoerd voor diverse spraakgerelateerde taken, waaronder spraakherkenning, spraakverbetering en sprekersverificatie. Deze experimenten zijn uitgevoerd met state-of-the-art modellen om hun prestaties te evalueren en te vergelijken op signalen die zijn vastgelegd door de verschillende audiosensoren die de Vibravox-dataset biedt, met als doel een beter inzicht te krijgen in hun individuele kenmerken.
English
Vibravox is a dataset compliant with the General Data Protection Regulation (GDPR) containing audio recordings using five different body-conduction audio sensors : two in-ear microphones, two bone conduction vibration pickups and a laryngophone. The data set also includes audio data from an airborne microphone used as a reference. The Vibravox corpus contains 38 hours of speech samples and physiological sounds recorded by 188 participants under different acoustic conditions imposed by an high order ambisonics 3D spatializer. Annotations about the recording conditions and linguistic transcriptions are also included in the corpus. We conducted a series of experiments on various speech-related tasks, including speech recognition, speech enhancement and speaker verification. These experiments were carried out using state-of-the-art models to evaluate and compare their performances on signals captured by the different audio sensors offered by the Vibravox dataset, with the aim of gaining a better grasp of their individual characteristics.
PDF42February 7, 2026