ChatPaper.aiChatPaper

AnimalCLAP: Таксономически-ориентированное претренирование языково-аудиомоделей для распознавания видов и выявления их признаков

AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference

March 23, 2026
Авторы: Risa Shinoda, Kaede Shiohara, Nakamasa Inoue, Hiroaki Santo, Fumio Okura
cs.AI

Аннотация

Вокализации животных предоставляют ключевые данные для оценки состояния дикой природы, особенно в сложных условиях, таких как леса, способствуя идентификации видов и экологическому мониторингу. Недавние достижения в области глубокого обучения позволили автоматизировать классификацию видов по их вокализациям. Однако классификация видов, не представленных в обучающей выборке, остается сложной задачей. Для преодоления этого ограничения мы представляем AnimalCLAP — таксономически ориентированную языково-аудио платформу, включающую новый набор данных и модель, которые учитывают иерархическую биологическую информацию. В частности, наш набор данных по вокализациям состоит из 4225 часов записей, охватывающих 6823 вида, аннотированных 22 экологическими признаками. Модель AnimalCLAP обучается на этих данных для согласования аудио- и текстовых представлений с использованием таксономических структур, что улучшает распознавание неизвестных видов. Мы демонстрируем, что предложенная модель эффективно выводит экологические и биологические атрибуты видов непосредственно из их вокализаций, превосходя по производительности CLAP. Наши набор данных, код и модели будут общедоступны по адресу https://dahlian00.github.io/AnimalCLAP_Page/.
English
Animal vocalizations provide crucial insights for wildlife assessment, particularly in complex environments such as forests, aiding species identification and ecological monitoring. Recent advances in deep learning have enabled automatic species classification from their vocalizations. However, classifying species unseen during training remains challenging. To address this limitation, we introduce AnimalCLAP, a taxonomy-aware language-audio framework comprising a new dataset and model that incorporate hierarchical biological information. Specifically, our vocalization dataset consists of 4,225 hours of recordings covering 6,823 species, annotated with 22 ecological traits. The AnimalCLAP model is trained on this dataset to align audio and textual representations using taxonomic structures, improving the recognition of unseen species. We demonstrate that our proposed model effectively infers ecological and biological attributes of species directly from their vocalizations, achieving superior performance compared to CLAP. Our dataset, code, and models will be publicly available at https://dahlian00.github.io/AnimalCLAP_Page/.
PDF32March 25, 2026