ChildVox: Эталон для речевых, аудио- и больших аудиоязыковых моделей в понимании и характеристике звука на протяжении детства

Аннотация

Мы представляем ChildVox — новый бенчмарк для характеризации разнообразных акустических сигналов, с помощью которых общаются дети. В частности, ChildVox охватывает полную траекторию развития от рождения до школьного возраста, включая физиологические звуки, нелингвистические вокализации, канонические слоги и устную речь. ChildVox объединяет более 20 подзадач в рамках 17 ориентированных на детей аудио- и речевых наборов данных, обеспечивая систематическое сравнение между корпусами и между доменами. Мы оцениваем репрезентативный ряд фундаментальных аудио- и речевых моделей, включая самообучающиеся, ориентированные на ASR и крупные аудиоязыковые модели, на задачах классификации физиологических звуков, моделирования вокализаций и канонических слогов, а также оценки и распознавания качества речи. Результаты бенчмарка показывают, что ChildVox предоставляет набор высокопроизводительных моделей для распознавания широкого спектра акустических сигналов от детей, поддерживая такие прикладные задачи, как характеризация уровней языкового развития детей и отслеживание речевой продукции с возрастом.

English

We present ChildVox, a novel benchmark for characterizing the diverse acoustic signals through which children communicate. Specifically, ChildVox follows the full developmental trajectory from birth through school age, covering physiological sounds, non-linguistic vocalizations, canonical syllables, and spoken language. ChildVox integrates more than 20 sub-tasks across 17 child-centered audio and speech datasets, enabling systematic cross-corpus and cross-domain comparison. We evaluate a representative range of audio and speech foundation models, including self-supervised, ASR-oriented, and large audio-language models, on tasks including physiological sound classification, vocalization and canonical syllables modeling, and speech quality assessment and recognition. Benchmark results show that ChildVox provides a suite of high-performance models in recognizing a wide range of acoustic signals from children, supporting downstream applications such as characterizing children's language levels and tracking speech production with age.