BioVITA : Jeu de données, modèle et benchmark biologiques pour l'alignement visuel-textuel-acoustique
BioVITA: Biological Dataset, Model, and Benchmark for Visual-Textual-Acoustic Alignment
March 25, 2026
Auteurs: Risa Shinoda, Kaede Shiohara, Nakamasa Inoue, Kuniaki Saito, Hiroaki Santo, Fumio Okura
cs.AI
Résumé
La compréhension des espèces animales à partir de données multimodales représente un défi émergent à l'intersection de la vision par ordinateur et de l'écologie. Si les modèles biologiques récents, tels que BioCLIP, ont démontré une forte alignement entre les images et les informations taxonomiques textuelles pour l'identification des espèces, l'intégration de la modalité audio reste un problème non résolu. Nous proposons BioVITA, un nouveau cadre d'alignement visuel-textuel-acoustique pour les applications biologiques. BioVITA comprend (i) un jeu de données d'entraînement, (ii) un modèle de représentation et (iii) un benchmark de recherche. Premièrement, nous avons constitué un jeu de données d'entraînement à grande échelle comprenant 1,3 million d'extraits audio et 2,3 millions d'images, couvrant 14 133 espèces annotées avec 34 labels de traits écologiques. Deuxièmement, en nous appuyant sur BioCLIP2, nous introduisons un cadre d'entraînement en deux étapes pour aligner efficacement les représentations audio avec les représentations visuelles et textuelles. Troisièmement, nous avons développé un benchmark de recherche cross-modale couvrant toutes les directions de recherche possibles entre les trois modalités (c'est-à-dire image-vers-audio, audio-vers-texte, texte-vers-image et leurs directions inverses), avec trois niveaux taxonomiques : Famille, Genre et Espèce. Des expériences approfondies démontrent que notre modèle apprend un espace de représentation unifié qui capture la sémantique au niveau des espèces au-delà de la taxonomie, faisant progresser la compréhension multimodale de la biodiversité. La page du projet est disponible à l'adresse : https://dahlian00.github.io/BioVITA_Page/
English
Understanding animal species from multimodal data poses an emerging challenge at the intersection of computer vision and ecology. While recent biological models, such as BioCLIP, have demonstrated strong alignment between images and textual taxonomic information for species identification, the integration of the audio modality remains an open problem. We propose BioVITA, a novel visual-textual-acoustic alignment framework for biological applications. BioVITA involves (i) a training dataset, (ii) a representation model, and (iii) a retrieval benchmark. First, we construct a large-scale training dataset comprising 1.3 million audio clips and 2.3 million images, covering 14,133 species annotated with 34 ecological trait labels. Second, building upon BioCLIP2, we introduce a two-stage training framework to effectively align audio representations with visual and textual representations. Third, we develop a cross-modal retrieval benchmark that covers all possible directional retrieval across the three modalities (i.e., image-to-audio, audio-to-text, text-to-image, and their reverse directions), with three taxonomic levels: Family, Genus, and Species. Extensive experiments demonstrate that our model learns a unified representation space that captures species-level semantics beyond taxonomy, advancing multimodal biodiversity understanding. The project page is available at: https://dahlian00.github.io/BioVITA_Page/