BioVITA: 시각-텍스트-음향 정렬을 위한 생물학적 데이터셋, 모델 및 벤치마크
BioVITA: Biological Dataset, Model, and Benchmark for Visual-Textual-Acoustic Alignment
March 25, 2026
저자: Risa Shinoda, Kaede Shiohara, Nakamasa Inoue, Kuniaki Saito, Hiroaki Santo, Fumio Okura
cs.AI
초록
멀티모달 데이터를 통한 동물 종 이해는 컴퓨터 비전과 생태학의 교차점에서 새로운 과제로 부상하고 있습니다. BioCLIP과 같은 최근의 생물학 모델들은 종 식별을 위한 이미지와 텍스트 기반 분류학 정보 간의 강력한 정렬을 입증했으나, 오디오 모달리티의 통합은 여전히 해결되지 않은 문제로 남아 있습니다. 본 연구에서는 생물학적 응용을 위한 새로운 시각-텍스트-음향 정렬 프레임워크인 BioVITA를 제안합니다. BioVITA는 (i) 훈련 데이터셋, (ii) 표현 모델, (iii) 검색 벤치마크로 구성됩니다. 첫째, 14,133개 종에 대해 34개의 생태학적 형질 라벨이 주석 처리된 130만 개의 오디오 클립과 230만 개의 이미지로 구성된 대규모 훈련 데이터셋을 구축합니다. 둘째, BioCLIP2를 기반으로 오디오 표현을 시각 및 텍스트 표현과 효과적으로 정렬하는 2단계 훈련 프레임워크를 도입합니다. 셋째, 세 모달리티 간 모든 가능한 방향성 검색(즉, 이미지-오디오, 오디오-텍스트, 텍스트-이미지 및 그 역방향)을 포괄하며 과(Family), 속(Genus), 종(Species)의 세 가지 분류학적 수준을 포함하는 교차 모달 검색 벤치마크를 개발합니다. 폭넓은 실험을 통해 우리 모델이 분류학을 넘어 종 수준의 의미론을 포착하는 통합 표현 공간을 학습함으로써 멀티모달 생물 다양성 이해를 발전시킴을 입증합니다. 프로젝트 페이지는 https://dahlian00.github.io/BioVITA_Page/에서 확인할 수 있습니다.
English
Understanding animal species from multimodal data poses an emerging challenge at the intersection of computer vision and ecology. While recent biological models, such as BioCLIP, have demonstrated strong alignment between images and textual taxonomic information for species identification, the integration of the audio modality remains an open problem. We propose BioVITA, a novel visual-textual-acoustic alignment framework for biological applications. BioVITA involves (i) a training dataset, (ii) a representation model, and (iii) a retrieval benchmark. First, we construct a large-scale training dataset comprising 1.3 million audio clips and 2.3 million images, covering 14,133 species annotated with 34 ecological trait labels. Second, building upon BioCLIP2, we introduce a two-stage training framework to effectively align audio representations with visual and textual representations. Third, we develop a cross-modal retrieval benchmark that covers all possible directional retrieval across the three modalities (i.e., image-to-audio, audio-to-text, text-to-image, and their reverse directions), with three taxonomic levels: Family, Genus, and Species. Extensive experiments demonstrate that our model learns a unified representation space that captures species-level semantics beyond taxonomy, advancing multimodal biodiversity understanding. The project page is available at: https://dahlian00.github.io/BioVITA_Page/