BioVITA: Conjunto de Datos Biológicos, Modelo y Punto de Referencia para la Alineación Visual-Textual-Acústica
BioVITA: Biological Dataset, Model, and Benchmark for Visual-Textual-Acoustic Alignment
March 25, 2026
Autores: Risa Shinoda, Kaede Shiohara, Nakamasa Inoue, Kuniaki Saito, Hiroaki Santo, Fumio Okura
cs.AI
Resumen
La comprensión de especies animales a partir de datos multimodales representa un desafío emergente en la intersección de la visión por computador y la ecología. Si bien modelos biológicos recientes, como BioCLIP, han demostrado una fuerte alineación entre imágenes e información taxonómica textual para la identificación de especies, la integración de la modalidad de audio sigue siendo un problema abierto. Proponemos BioVITA, un novedoso marco de alineación visual-textual-acústica para aplicaciones biológicas. BioVITA comprende (i) un conjunto de datos de entrenamiento, (ii) un modelo de representación y (iii) un punto de referencia para recuperación de información. En primer lugar, construimos un conjunto de datos de entrenamiento a gran escala que comprende 1,3 millones de clips de audio y 2,3 millones de imágenes, cubriendo 14.133 especies anotadas con 34 etiquetas de rasgos ecológicos. En segundo lugar, partiendo de BioCLIP2, introducimos un marco de entrenamiento en dos etapas para alinear eficazmente las representaciones de audio con las representaciones visuales y textuales. En tercer lugar, desarrollamos un punto de referencia para la recuperación multimodal que cubre todas las direcciones de recuperación posibles entre las tres modalidades (es decir, imagen-a-audio, audio-a-texto, texto-a-imagen y sus direcciones inversas), con tres niveles taxonómicos: Familia, Género y Especie. Experimentos exhaustivos demuestran que nuestro modelo aprende un espacio de representación unificado que captura semánticas a nivel de especie más allá de la taxonomía, avanzando en la comprensión multimodal de la biodiversidad. La página del proyecto está disponible en: https://dahlian00.github.io/BioVITA_Page/
English
Understanding animal species from multimodal data poses an emerging challenge at the intersection of computer vision and ecology. While recent biological models, such as BioCLIP, have demonstrated strong alignment between images and textual taxonomic information for species identification, the integration of the audio modality remains an open problem. We propose BioVITA, a novel visual-textual-acoustic alignment framework for biological applications. BioVITA involves (i) a training dataset, (ii) a representation model, and (iii) a retrieval benchmark. First, we construct a large-scale training dataset comprising 1.3 million audio clips and 2.3 million images, covering 14,133 species annotated with 34 ecological trait labels. Second, building upon BioCLIP2, we introduce a two-stage training framework to effectively align audio representations with visual and textual representations. Third, we develop a cross-modal retrieval benchmark that covers all possible directional retrieval across the three modalities (i.e., image-to-audio, audio-to-text, text-to-image, and their reverse directions), with three taxonomic levels: Family, Genus, and Species. Extensive experiments demonstrate that our model learns a unified representation space that captures species-level semantics beyond taxonomy, advancing multimodal biodiversity understanding. The project page is available at: https://dahlian00.github.io/BioVITA_Page/