ChildVox: Un punto de referencia para modelos de habla, audio y audio-lenguaje a gran escala en la comprensión y caracterización del sonido durante la infancia
ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood
May 28, 2026
Autores: Tiantian Feng, Anfeng Xu, Xuan Shi, Aditya Kommineni, Shakhrul Iman Siam, Megan Micheletti, Zhonghao Shi, Helen Tager-Flusberg, Mi Zhang, Lynn K. Perry, Catherine Lord, Daniel Messinger, Shrikanth Narayanan
cs.AI
Resumen
Presentamos ChildVox, un nuevo punto de referencia para caracterizar las diversas señales acústicas a través de las cuales los niños se comunican. Específicamente, ChildVox sigue la trayectoria completa del desarrollo desde el nacimiento hasta la edad escolar, abarcando sonidos fisiológicos, vocalizaciones no lingüísticas, sílabas canónicas y lenguaje hablado. ChildVox integra más de 20 subtareas en 17 conjuntos de datos de audio y habla centrados en niños, lo que permite una comparación sistemática entre corpus y entre dominios. Evaluamos un rango representativo de modelos fundacionales de audio y habla, incluyendo modelos auto-supervisados, orientados a ASR y grandes modelos de audio-lenguaje, en tareas que incluyen clasificación de sonidos fisiológicos, modelado de vocalizaciones y sílabas canónicas, y evaluación y reconocimiento de la calidad del habla. Los resultados del punto de referencia muestran que ChildVox proporciona un conjunto de modelos de alto rendimiento en el reconocimiento de una amplia gama de señales acústicas de niños, apoyando aplicaciones posteriores como la caracterización de los niveles de lenguaje de los niños y el seguimiento de la producción del habla con la edad.
English
We present ChildVox, a novel benchmark for characterizing the diverse acoustic signals through which children communicate. Specifically, ChildVox follows the full developmental trajectory from birth through school age, covering physiological sounds, non-linguistic vocalizations, canonical syllables, and spoken language. ChildVox integrates more than 20 sub-tasks across 17 child-centered audio and speech datasets, enabling systematic cross-corpus and cross-domain comparison. We evaluate a representative range of audio and speech foundation models, including self-supervised, ASR-oriented, and large audio-language models, on tasks including physiological sound classification, vocalization and canonical syllables modeling, and speech quality assessment and recognition. Benchmark results show that ChildVox provides a suite of high-performance models in recognizing a wide range of acoustic signals from children, supporting downstream applications such as characterizing children's language levels and tracking speech production with age.