AnimalCLAP: Taxonomiebewuste Taal-Audio Pre-training voor Soortenherkenning en Kenmerkafleiding
AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference
March 23, 2026
Auteurs: Risa Shinoda, Kaede Shiohara, Nakamasa Inoue, Hiroaki Santo, Fumio Okura
cs.AI
Samenvatting
Dierlijke vocalisaties bieden cruciale inzichten voor wildbeoordeling, met name in complexe omgevingen zoals bossen, en ondersteunen soortenidentificatie en ecologische monitoring. Recente vooruitgang in deep learning heeft automatische soortclassificatie op basis van vocalisaties mogelijk gemaakt. Het classificeren van soorten die niet tijdens de training zijn gezien, blijft echter een uitdaging. Om deze beperking aan te pakken, introduceren we AnimalCLAP, een taxonomiebewust taal-audio raamwerk bestaande uit een nieuwe dataset en een model dat hiërarchische biologische informatie integreert. Concreet bestaat onze vocalisatiedataset uit 4.225 uur aan opnames van 6.823 soorten, geannoteerd met 22 ecologische kenmerken. Het AnimalCLAP-model wordt op deze dataset getraind om audio- en tekstuele representaties af te stemmen met behulp van taxonomische structuren, wat de herkenning van onbekende soorten verbetert. Wij tonen aan dat ons voorgestelde model effectief ecologische en biologische eigenschappen van soorten afleidt direct vanuit hun vocalisaties, en superieure prestaties bereikt in vergelijking met CLAP. Onze dataset, code en modellen zullen openbaar beschikbaar zijn op https://dahlian00.github.io/AnimalCLAP_Page/.
English
Animal vocalizations provide crucial insights for wildlife assessment, particularly in complex environments such as forests, aiding species identification and ecological monitoring. Recent advances in deep learning have enabled automatic species classification from their vocalizations. However, classifying species unseen during training remains challenging. To address this limitation, we introduce AnimalCLAP, a taxonomy-aware language-audio framework comprising a new dataset and model that incorporate hierarchical biological information. Specifically, our vocalization dataset consists of 4,225 hours of recordings covering 6,823 species, annotated with 22 ecological traits. The AnimalCLAP model is trained on this dataset to align audio and textual representations using taxonomic structures, improving the recognition of unseen species. We demonstrate that our proposed model effectively infers ecological and biological attributes of species directly from their vocalizations, achieving superior performance compared to CLAP. Our dataset, code, and models will be publicly available at https://dahlian00.github.io/AnimalCLAP_Page/.