AnimalCLAP: 種認識と形質推論のための分類体系を考慮した言語-音響事前学習
AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference
March 23, 2026
著者: Risa Shinoda, Kaede Shiohara, Nakamasa Inoue, Hiroaki Santo, Fumio Okura
cs.AI
要旨
動物の鳴き声は、特に森林のような複雑な環境において、種の同定や生態モニタリングに貢献し、野生生物評価に重要な知見を提供する。深層学習の近年の進歩により、鳴き声からの自動的な種分類が可能となった。しかし、学習時に未経験の種を分類することは依然として課題である。この制約を解決するため、我々は階層的な生物学的情報を統合した新しいデータセットとモデルからなる、分類学を意識した言語-音響フレームワーク「AnimalCLAP」を提案する。具体的には、本鳴き声データセットは6,823種をカバーする4,225時間の録音から構成され、22の生態形質で注釈が付けられている。AnimalCLAPモデルは、分類学的構造を用いて音響とテキストの表現を整合させるようにこのデータセットで学習され、未経験の種の認識を改善する。提案モデルが、鳴き声から直接種の生態的・生物学的属性を効果的に推論し、CLAPと比較して優れた性能を達成することを実証する。データセット、コード、モデルは https://dahlian00.github.io/AnimalCLAP_Page/ で公開予定である。
English
Animal vocalizations provide crucial insights for wildlife assessment, particularly in complex environments such as forests, aiding species identification and ecological monitoring. Recent advances in deep learning have enabled automatic species classification from their vocalizations. However, classifying species unseen during training remains challenging. To address this limitation, we introduce AnimalCLAP, a taxonomy-aware language-audio framework comprising a new dataset and model that incorporate hierarchical biological information. Specifically, our vocalization dataset consists of 4,225 hours of recordings covering 6,823 species, annotated with 22 ecological traits. The AnimalCLAP model is trained on this dataset to align audio and textual representations using taxonomic structures, improving the recognition of unseen species. We demonstrate that our proposed model effectively infers ecological and biological attributes of species directly from their vocalizations, achieving superior performance compared to CLAP. Our dataset, code, and models will be publicly available at https://dahlian00.github.io/AnimalCLAP_Page/.