BioVITA: Dataset Biologico, Modello e Benchmark per l'Allineamento Visivo-Testuale-Acustico
BioVITA: Biological Dataset, Model, and Benchmark for Visual-Textual-Acoustic Alignment
March 25, 2026
Autori: Risa Shinoda, Kaede Shiohara, Nakamasa Inoue, Kuniaki Saito, Hiroaki Santo, Fumio Okura
cs.AI
Abstract
La comprensione delle specie animali da dati multimodali rappresenta una sfida emergente all'intersezione tra visione artificiale ed ecologia. Sebbene recenti modelli biologici, come BioCLIP, abbiano dimostrato una forte allineamento tra immagini e informazioni tassonomiche testuali per l'identificazione delle specie, l'integrazione della modalità audio rimane un problema aperto. Proponiamo BioVITA, un nuovo framework di allineamento visivo-testuale-acustico per applicazioni biologiche. BioVITA comprende (i) un dataset di addestramento, (ii) un modello di rappresentazione e (iii) un benchmark per il retrieval. In primo luogo, abbiamo costruito un dataset di addestramento su larga scala comprendente 1,3 milioni di clip audio e 2,3 milioni di immagini, che coprono 14.133 specie annotate con 34 etichette di tratti ecologici. In secondo luogo, basandoci su BioCLIP2, introduciamo un framework di addestramento a due stadi per allineare efficacemente le rappresentazioni audio con quelle visive e testuali. In terzo luogo, sviluppiamo un benchmark di retrieval cross-modale che copre tutte le possibili direzioni di retrieval tra le tre modalità (ad esempio, da immagine ad audio, da audio a testo, da testo a immagine e le relative direzioni inverse), con tre livelli tassonomici: Famiglia, Genere e Specie. Esperimenti estensivi dimostrano che il nostro modello apprende uno spazio di rappresentazione unificato che cattura la semantica a livello di specie andando oltre la tassonomia, facendo progredire la comprensione multimodale della biodiversità. La pagina del progetto è disponibile all'indirizzo: https://dahlian00.github.io/BioVITA_Page/
English
Understanding animal species from multimodal data poses an emerging challenge at the intersection of computer vision and ecology. While recent biological models, such as BioCLIP, have demonstrated strong alignment between images and textual taxonomic information for species identification, the integration of the audio modality remains an open problem. We propose BioVITA, a novel visual-textual-acoustic alignment framework for biological applications. BioVITA involves (i) a training dataset, (ii) a representation model, and (iii) a retrieval benchmark. First, we construct a large-scale training dataset comprising 1.3 million audio clips and 2.3 million images, covering 14,133 species annotated with 34 ecological trait labels. Second, building upon BioCLIP2, we introduce a two-stage training framework to effectively align audio representations with visual and textual representations. Third, we develop a cross-modal retrieval benchmark that covers all possible directional retrieval across the three modalities (i.e., image-to-audio, audio-to-text, text-to-image, and their reverse directions), with three taxonomic levels: Family, Genus, and Species. Extensive experiments demonstrate that our model learns a unified representation space that captures species-level semantics beyond taxonomy, advancing multimodal biodiversity understanding. The project page is available at: https://dahlian00.github.io/BioVITA_Page/