ChildVox: Um Benchmark de Fala, Áudio e Modelo de Áudio-Linguagem de Grande Escala para Compreensão e Caracterização de Sons na Infância

Resumo

Apresentamos o ChildVox, um novo benchmark para caracterizar os diversos sinais acústicos através dos quais as crianças se comunicam. Especificamente, o ChildVox acompanha a trajetória completa do desenvolvimento desde o nascimento até a idade escolar, abrangendo sons fisiológicos, vocalizações não linguísticas, sílabas canônicas e linguagem falada. O ChildVox integra mais de 20 sub-tarefas em 17 conjuntos de dados de áudio e fala centrados em crianças, permitindo comparação sistemática entre corpora e entre domínios. Avaliamos uma gama representativa de modelos fundamentais de áudio e fala, incluindo modelos auto-supervisionados, orientados para ASR e grandes modelos de áudio e linguagem, em tarefas como classificação de sons fisiológicos, modelagem de vocalizações e sílabas canônicas, e avaliação e reconhecimento da qualidade da fala. Os resultados do benchmark mostram que o ChildVox fornece um conjunto de modelos de alto desempenho no reconhecimento de uma ampla gama de sinais acústicos de crianças, apoiando aplicações downstream como a caracterização dos níveis de linguagem infantil e o acompanhamento da produção da fala com a idade.

English

We present ChildVox, a novel benchmark for characterizing the diverse acoustic signals through which children communicate. Specifically, ChildVox follows the full developmental trajectory from birth through school age, covering physiological sounds, non-linguistic vocalizations, canonical syllables, and spoken language. ChildVox integrates more than 20 sub-tasks across 17 child-centered audio and speech datasets, enabling systematic cross-corpus and cross-domain comparison. We evaluate a representative range of audio and speech foundation models, including self-supervised, ASR-oriented, and large audio-language models, on tasks including physiological sound classification, vocalization and canonical syllables modeling, and speech quality assessment and recognition. Benchmark results show that ChildVox provides a suite of high-performance models in recognizing a wide range of acoustic signals from children, supporting downstream applications such as characterizing children's language levels and tracking speech production with age.