AnimalCLAP: Taxonomie-bewusstes Sprach-Audio-Pre-Training zur Artenerkennung und Merkmalsinferenz
AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference
March 23, 2026
Autoren: Risa Shinoda, Kaede Shiohara, Nakamasa Inoue, Hiroaki Santo, Fumio Okura
cs.AI
Zusammenfassung
Tierlautäußerungen liefern entscheidende Erkenntnisse für die Bewertung von Wildtieren, insbesondere in komplexen Umgebungen wie Wäldern, und unterstützen die Artenidentifikation sowie die ökologische Überwachung. Jüngste Fortschritte im Deep Learning ermöglichen eine automatische Artklassifizierung anhand ihrer Lautäußerungen. Die Klassifizierung von Arten, die während des Trainings nicht berücksichtigt wurden, bleibt jedoch eine Herausforderung. Um diese Einschränkung zu überwinden, stellen wir AnimalCLAP vor, ein taxonomie-basiertes Sprach-Audio-Framework, das einen neuen Datensatz und ein Modell umfasst, die hierarchische biologische Informationen integrieren. Konkret besteht unser Vogelstimmen-Datensatz aus 4.225 Stunden Aufnahmen von 6.823 Arten, die mit 22 ökologischen Merkmalen annotiert sind. Das AnimalCLAP-Modell wird auf diesem Datensatz trainiert, um Audio- und Textrepräsentationen unter Verwendung taxonomischer Strukturen abzugleichen und so die Erkennung unbekannter Arten zu verbessern. Wir zeigen, dass unser Modell effektiv ökologische und biologische Attribute von Arten direkt aus ihren Lautäußerungen ableitet und dabei eine überlegene Leistung im Vergleich zu CLAP erzielt. Unser Datensatz, Code und Modelle werden unter https://dahlian00.github.io/AnimalCLAP_Page/ öffentlich verfügbar sein.
English
Animal vocalizations provide crucial insights for wildlife assessment, particularly in complex environments such as forests, aiding species identification and ecological monitoring. Recent advances in deep learning have enabled automatic species classification from their vocalizations. However, classifying species unseen during training remains challenging. To address this limitation, we introduce AnimalCLAP, a taxonomy-aware language-audio framework comprising a new dataset and model that incorporate hierarchical biological information. Specifically, our vocalization dataset consists of 4,225 hours of recordings covering 6,823 species, annotated with 22 ecological traits. The AnimalCLAP model is trained on this dataset to align audio and textual representations using taxonomic structures, improving the recognition of unseen species. We demonstrate that our proposed model effectively infers ecological and biological attributes of species directly from their vocalizations, achieving superior performance compared to CLAP. Our dataset, code, and models will be publicly available at https://dahlian00.github.io/AnimalCLAP_Page/.