ChildVox : un référentiel de modèles de parole, audio et audio-langage à grande échelle pour la compréhension et la caractérisation du son durant l'enfance

Résumé

Nous présentons ChildVox, un nouveau référentiel conçu pour caractériser la diversité des signaux acoustiques par lesquels les enfants communiquent. Plus précisément, ChildVox suit l'intégralité de la trajectoire développementale, de la naissance à l'âge scolaire, en couvrant les sons physiologiques, les vocalisations non linguistiques, les syllabes canoniques et le langage parlé. ChildVox intègre plus de 20 sous-tâches issues de 17 ensembles de données audio et de parole centrés sur l'enfant, permettant une comparaison systématique inter-corpus et inter-domaines. Nous évaluons un éventail représentatif de modèles fondamentaux audio et de parole, incluant des modèles auto-supervisés, orientés vers la reconnaissance automatique de la parole (ASR) et de grands modèles audio-langage, sur des tâches comprenant la classification des sons physiologiques, la modélisation des vocalisations et des syllabes canoniques, ainsi que l'évaluation et la reconnaissance de la qualité de la parole. Les résultats du référentiel montrent que ChildVox fournit un ensemble de modèles haute performance pour la reconnaissance d'une large gamme de signaux acoustiques émis par les enfants, soutenant des applications en aval telles que la caractérisation des niveaux de langage des enfants et le suivi de la production de la parole en fonction de l'âge.

English

We present ChildVox, a novel benchmark for characterizing the diverse acoustic signals through which children communicate. Specifically, ChildVox follows the full developmental trajectory from birth through school age, covering physiological sounds, non-linguistic vocalizations, canonical syllables, and spoken language. ChildVox integrates more than 20 sub-tasks across 17 child-centered audio and speech datasets, enabling systematic cross-corpus and cross-domain comparison. We evaluate a representative range of audio and speech foundation models, including self-supervised, ASR-oriented, and large audio-language models, on tasks including physiological sound classification, vocalization and canonical syllables modeling, and speech quality assessment and recognition. Benchmark results show that ChildVox provides a suite of high-performance models in recognizing a wide range of acoustic signals from children, supporting downstream applications such as characterizing children's language levels and tracking speech production with age.