AnimalCLAP: Pré-treinamento Linguagem-Áudio com Consciência Taxonômica para Reconhecimento de Espécies e Inferência de Características

Resumo

As vocalizações animais fornecem insights cruciais para a avaliação da vida selvagem, particularmente em ambientes complexos como florestas, auxiliando na identificação de espécies e no monitoramento ecológico. Avanços recentes em aprendizado profundo permitiram a classificação automática de espécies a partir de suas vocalizações. No entanto, classificar espécies não vistas durante o treinamento permanece um desafio. Para superar essa limitação, apresentamos o AnimalCLAP, uma estrutura áudio-linguagem consciente da taxonomia, compreendendo um novo conjunto de dados e modelo que incorpora informações biológicas hierárquicas. Especificamente, nosso conjunto de dados de vocalização consiste em 4.225 horas de gravações abrangendo 6.823 espécies, anotadas com 22 características ecológicas. O modelo AnimalCLAP é treinado neste conjunto de dados para alinhar representações de áudio e textuais usando estruturas taxonômicas, melhorando o reconhecimento de espécies não vistas. Demonstramos que nosso modelo proposto infere efetivamente atributos ecológicos e biológicos das espécies diretamente de suas vocalizações, alcançando desempenho superior em comparação com o CLAP. Nosso conjunto de dados, código e modelos estarão publicamente disponíveis em https://dahlian00.github.io/AnimalCLAP_Page/.

English

Animal vocalizations provide crucial insights for wildlife assessment, particularly in complex environments such as forests, aiding species identification and ecological monitoring. Recent advances in deep learning have enabled automatic species classification from their vocalizations. However, classifying species unseen during training remains challenging. To address this limitation, we introduce AnimalCLAP, a taxonomy-aware language-audio framework comprising a new dataset and model that incorporate hierarchical biological information. Specifically, our vocalization dataset consists of 4,225 hours of recordings covering 6,823 species, annotated with 22 ecological traits. The AnimalCLAP model is trained on this dataset to align audio and textual representations using taxonomic structures, improving the recognition of unseen species. We demonstrate that our proposed model effectively infers ecological and biological attributes of species directly from their vocalizations, achieving superior performance compared to CLAP. Our dataset, code, and models will be publicly available at https://dahlian00.github.io/AnimalCLAP_Page/.

AnimalCLAP: Pré-treinamento Linguagem-Áudio com Consciência Taxonômica para Reconhecimento de Espécies e Inferência de Características

AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference

Resumo

Support