AnimalCLAP: Pre-addestramento Linguaggio-Audio con Consapevolezza Tassonomica per il Riconoscimento delle Specie e l'Inferenza di Tratti

Abstract

Le vocalizzazioni animali forniscono informazioni cruciali per la valutazione della fauna selvatica, specialmente in ambienti complessi come le foreste, facilitando l'identificazione delle specie e il monitoraggio ecologico. I recenti progressi nel deep learning hanno reso possibile la classificazione automatica delle specie a partire dalle loro vocalizzazioni. Tuttavia, classificare specie non presenti durante l'addestramento rimane una sfida. Per affrontare questa limitazione, presentiamo AnimalCLAP, un framework linguaggio-audio consapevole della tassonomia, composto da un nuovo dataset e un modello che incorporano informazioni biologiche gerarchiche. Nello specifico, il nostro dataset di vocalizzazioni consiste in 4.225 ore di registrazioni che coprono 6.823 specie, annotate con 22 tratti ecologici. Il modello AnimalCLAP viene addestrato su questo dataset per allineare le rappresentazioni audio e testuali utilizzando le strutture tassonomiche, migliorando il riconoscimento di specie non viste. Dimostriamo che il nostro modello proposto inferisce efficacemente attributi ecologici e biologici delle specie direttamente dalle loro vocalizzazioni, raggiungendo prestazioni superiori rispetto a CLAP. Il nostro dataset, il codice e i modelli saranno pubblicamente disponibili all'indirizzo https://dahlian00.github.io/AnimalCLAP_Page/.

English

Animal vocalizations provide crucial insights for wildlife assessment, particularly in complex environments such as forests, aiding species identification and ecological monitoring. Recent advances in deep learning have enabled automatic species classification from their vocalizations. However, classifying species unseen during training remains challenging. To address this limitation, we introduce AnimalCLAP, a taxonomy-aware language-audio framework comprising a new dataset and model that incorporate hierarchical biological information. Specifically, our vocalization dataset consists of 4,225 hours of recordings covering 6,823 species, annotated with 22 ecological traits. The AnimalCLAP model is trained on this dataset to align audio and textual representations using taxonomic structures, improving the recognition of unseen species. We demonstrate that our proposed model effectively infers ecological and biological attributes of species directly from their vocalizations, achieving superior performance compared to CLAP. Our dataset, code, and models will be publicly available at https://dahlian00.github.io/AnimalCLAP_Page/.

AnimalCLAP: Pre-addestramento Linguaggio-Audio con Consapevolezza Tassonomica per il Riconoscimento delle Specie e l'Inferenza di Tratti

AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference

Abstract

Support