Vibravox: Um Conjunto de Dados de Fala em Francês Capturado com Sensores de Áudio de Condução Corporal

Resumo

O Vibravox é um conjunto de dados em conformidade com o Regulamento Geral de Proteção de Dados (GDPR) que contém gravações de áudio usando cinco diferentes sensores de áudio por condução corporal: dois microfones intra-auriculares, dois captadores de vibração por condução óssea e um laringofone. O conjunto de dados também inclui dados de áudio de um microfone aéreo usado como referência. O corpus Vibravox contém 38 horas de amostras de fala e sons fisiológicos gravados por 188 participantes sob diferentes condições acústicas impostas por um espacializador 3D de ambisonics de alta ordem. Anotações sobre as condições de gravação e transcrições linguísticas também estão incluídas no corpus. Realizamos uma série de experimentos em várias tarefas relacionadas à fala, incluindo reconhecimento de fala, aprimoramento de fala e verificação de locutor. Esses experimentos foram realizados usando modelos de ponta para avaliar e comparar seus desempenhos em sinais capturados pelos diferentes sensores de áudio oferecidos pelo conjunto de dados Vibravox, com o objetivo de obter uma compreensão melhor de suas características individuais.

English

Vibravox is a dataset compliant with the General Data Protection Regulation (GDPR) containing audio recordings using five different body-conduction audio sensors : two in-ear microphones, two bone conduction vibration pickups and a laryngophone. The data set also includes audio data from an airborne microphone used as a reference. The Vibravox corpus contains 38 hours of speech samples and physiological sounds recorded by 188 participants under different acoustic conditions imposed by an high order ambisonics 3D spatializer. Annotations about the recording conditions and linguistic transcriptions are also included in the corpus. We conducted a series of experiments on various speech-related tasks, including speech recognition, speech enhancement and speaker verification. These experiments were carried out using state-of-the-art models to evaluate and compare their performances on signals captured by the different audio sensors offered by the Vibravox dataset, with the aim of gaining a better grasp of their individual characteristics.

Vibravox: Um Conjunto de Dados de Fala em Francês Capturado com Sensores de Áudio de Condução Corporal

Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors

Resumo

Support