ChildVox: Ein Benchmark für Sprache, Audio und große Audio-Sprachmodelle zum Verstehen und Charakterisieren von Geräuschen in der Kindheit
ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood
May 28, 2026
Autoren: Tiantian Feng, Anfeng Xu, Xuan Shi, Aditya Kommineni, Shakhrul Iman Siam, Megan Micheletti, Zhonghao Shi, Helen Tager-Flusberg, Mi Zhang, Lynn K. Perry, Catherine Lord, Daniel Messinger, Shrikanth Narayanan
cs.AI
Zusammenfassung
Wir präsentieren ChildVox, einen neuartigen Benchmark zur Charakterisierung der vielfältigen akustischen Signale, mit denen Kinder kommunizieren. Insbesondere umfasst ChildVox die gesamte Entwicklungstrajektorie von der Geburt bis zum Schulalter und deckt physiologische Laute, nicht-linguistische Vokalisationen, kanonische Silben und gesprochene Sprache ab. ChildVox integriert mehr als 20 Unteraufgaben aus 17 kindzentrierten Audio- und Sprachdatensätzen und ermöglicht so einen systematischen korpus- und domänenübergreifenden Vergleich. Wir evaluieren eine repräsentative Auswahl von Audio- und Sprach-Fundamentmodellen, darunter selbstüberwachte, ASR-orientierte und große Audio-Sprach-Modelle, bei Aufgaben wie der Klassifikation physiologischer Laute, der Modellierung von Vokalisationen und kanonischen Silben sowie der Bewertung und Erkennung von Sprachqualität. Die Benchmark-Ergebnisse zeigen, dass ChildVox eine Reihe leistungsstarker Modelle zur Erkennung eines breiten Spektrums akustischer Signale von Kindern bereitstellt und so nachgelagerte Anwendungen wie die Charakterisierung des Sprachniveaus von Kindern und die Verfolgung der Sprachproduktion mit zunehmendem Alter unterstützt.
English
We present ChildVox, a novel benchmark for characterizing the diverse acoustic signals through which children communicate. Specifically, ChildVox follows the full developmental trajectory from birth through school age, covering physiological sounds, non-linguistic vocalizations, canonical syllables, and spoken language. ChildVox integrates more than 20 sub-tasks across 17 child-centered audio and speech datasets, enabling systematic cross-corpus and cross-domain comparison. We evaluate a representative range of audio and speech foundation models, including self-supervised, ASR-oriented, and large audio-language models, on tasks including physiological sound classification, vocalization and canonical syllables modeling, and speech quality assessment and recognition. Benchmark results show that ChildVox provides a suite of high-performance models in recognizing a wide range of acoustic signals from children, supporting downstream applications such as characterizing children's language levels and tracking speech production with age.