ChildVox: Een benchmark voor spraak, audio en grote audio-taalmodellen in het begrijpen en karakteriseren van geluid gedurende de kindertijd

Samenvatting

We presenteren ChildVox, een nieuwe benchmark voor het karakteriseren van de diverse akoestische signalen waarmee kinderen communiceren. Specifiek volgt ChildVox het volledige ontwikkelingstraject van geboorte tot schoolleeftijd, waarbij fysiologische geluiden, niet-linguïstische vocalisaties, canonieke syllaben en gesproken taal worden omvat. ChildVox integreert meer dan 20 subtaken over 17 kindgerichte audio- en spraakdatasets, wat systematische vergelijking tussen corpora en domeinen mogelijk maakt. We evalueren een representatieve reeks funderingsmodellen voor audio en spraak, waaronder zelfgesuperviseerde, ASR-gerichte en grote audio-taalmodelen, op taken zoals classificatie van fysiologische geluiden, modellering van vocalisaties en canonieke syllaben, en beoordeling en herkenning van spraakkwaliteit. Benchmarkresultaten tonen aan dat ChildVox een reeks hoogpresterende modellen biedt bij het herkennen van een breed scala aan akoestische signalen van kinderen, wat toepassingen in downstream ondersteunt zoals het karakteriseren van taalniveaus van kinderen en het volgen van spraakproductie met de leeftijd.

English

We present ChildVox, a novel benchmark for characterizing the diverse acoustic signals through which children communicate. Specifically, ChildVox follows the full developmental trajectory from birth through school age, covering physiological sounds, non-linguistic vocalizations, canonical syllables, and spoken language. ChildVox integrates more than 20 sub-tasks across 17 child-centered audio and speech datasets, enabling systematic cross-corpus and cross-domain comparison. We evaluate a representative range of audio and speech foundation models, including self-supervised, ASR-oriented, and large audio-language models, on tasks including physiological sound classification, vocalization and canonical syllables modeling, and speech quality assessment and recognition. Benchmark results show that ChildVox provides a suite of high-performance models in recognizing a wide range of acoustic signals from children, supporting downstream applications such as characterizing children's language levels and tracking speech production with age.