Vibravox: Um Conjunto de Dados de Fala em Francês Capturado com Sensores de Áudio de Condução Corporal
Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors
July 16, 2024
Autores: Julien Hauret, Malo Olivier, Thomas Joubaud, Christophe Langrenne, Sarah Poirée, Véronique Zimpfer, Éric Bavu
cs.AI
Resumo
O Vibravox é um conjunto de dados em conformidade com o Regulamento Geral de Proteção de Dados (GDPR) que contém gravações de áudio usando cinco diferentes sensores de áudio por condução corporal: dois microfones intra-auriculares, dois captadores de vibração por condução óssea e um laringofone. O conjunto de dados também inclui dados de áudio de um microfone aéreo usado como referência. O corpus Vibravox contém 38 horas de amostras de fala e sons fisiológicos gravados por 188 participantes sob diferentes condições acústicas impostas por um espacializador 3D de ambisonics de alta ordem. Anotações sobre as condições de gravação e transcrições linguísticas também estão incluídas no corpus. Realizamos uma série de experimentos em várias tarefas relacionadas à fala, incluindo reconhecimento de fala, aprimoramento de fala e verificação de locutor. Esses experimentos foram realizados usando modelos de ponta para avaliar e comparar seus desempenhos em sinais capturados pelos diferentes sensores de áudio oferecidos pelo conjunto de dados Vibravox, com o objetivo de obter uma compreensão melhor de suas características individuais.
English
Vibravox is a dataset compliant with the General Data Protection Regulation
(GDPR) containing audio recordings using five different body-conduction audio
sensors : two in-ear microphones, two bone conduction vibration pickups and a
laryngophone. The data set also includes audio data from an airborne microphone
used as a reference. The Vibravox corpus contains 38 hours of speech samples
and physiological sounds recorded by 188 participants under different acoustic
conditions imposed by an high order ambisonics 3D spatializer. Annotations
about the recording conditions and linguistic transcriptions are also included
in the corpus. We conducted a series of experiments on various speech-related
tasks, including speech recognition, speech enhancement and speaker
verification. These experiments were carried out using state-of-the-art models
to evaluate and compare their performances on signals captured by the different
audio sensors offered by the Vibravox dataset, with the aim of gaining a better
grasp of their individual characteristics.