AnimalCLAP: Preentrenamiento de Lenguaje-Audio con Conciencia Taxonómica para el Reconocimiento de Especies e Inferencia de Rasgos

Resumen

Las vocalizaciones animales proporcionan información crucial para la evaluación de la vida silvestre, especialmente en entornos complejos como los bosques, facilitando la identificación de especies y el monitoreo ecológico. Los recientes avances en el aprendizaje profundo han permitido la clasificación automática de especies a partir de sus vocalizaciones. Sin embargo, clasificar especies no vistas durante el entrenamiento sigue siendo un desafío. Para abordar esta limitación, presentamos AnimalCLAP, un marco de trabajo lenguaje-audio consciente de la taxonomía que comprende un nuevo conjunto de datos y un modelo que incorpora información biológica jerárquica. Específicamente, nuestro conjunto de datos de vocalizaciones consiste en 4.225 horas de grabaciones que cubren 6.823 especies, anotadas con 22 rasgos ecológicos. El modelo AnimalCLAP se entrena en este conjunto de datos para alinear las representaciones de audio y texto utilizando estructuras taxonómicas, mejorando el reconocimiento de especies no vistas. Demostramos que nuestro modelo propuesto infiere efectivamente los atributos ecológicos y biológicos de las especies directamente a partir de sus vocalizaciones, logrando un rendimiento superior en comparación con CLAP. Nuestro conjunto de datos, código y modelos estarán disponibles públicamente en https://dahlian00.github.io/AnimalCLAP_Page/.

English

Animal vocalizations provide crucial insights for wildlife assessment, particularly in complex environments such as forests, aiding species identification and ecological monitoring. Recent advances in deep learning have enabled automatic species classification from their vocalizations. However, classifying species unseen during training remains challenging. To address this limitation, we introduce AnimalCLAP, a taxonomy-aware language-audio framework comprising a new dataset and model that incorporate hierarchical biological information. Specifically, our vocalization dataset consists of 4,225 hours of recordings covering 6,823 species, annotated with 22 ecological traits. The AnimalCLAP model is trained on this dataset to align audio and textual representations using taxonomic structures, improving the recognition of unseen species. We demonstrate that our proposed model effectively infers ecological and biological attributes of species directly from their vocalizations, achieving superior performance compared to CLAP. Our dataset, code, and models will be publicly available at https://dahlian00.github.io/AnimalCLAP_Page/.

AnimalCLAP: Preentrenamiento de Lenguaje-Audio con Conciencia Taxonómica para el Reconocimiento de Especies e Inferencia de Rasgos

AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference

Resumen

Support