BioVITA:視覚・テキスト・聴覚の統合化に向けた生物学的データセット、モデル、ベンチマーク
BioVITA: Biological Dataset, Model, and Benchmark for Visual-Textual-Acoustic Alignment
March 25, 2026
著者: Risa Shinoda, Kaede Shiohara, Nakamasa Inoue, Kuniaki Saito, Hiroaki Santo, Fumio Okura
cs.AI
要旨
マルチモーダルデータからの動物種の理解は、コンピュータビジョンと生態学の交差点において新たな課題となっている。BioCLIPのような近年の生物学的モデルは、種の同定において画像とテキストによる分類学的情報の強い連携を示しているが、音響モダリティの統合は未解決の問題である。本研究では、生物学的応用のための新しい視覚-テキスト-音響連携フレームワークであるBioVITAを提案する。BioVITAは、(i) 訓練データセット、(ii) 表現モデル、(iii) 検索ベンチマークで構成される。まず、134万の音声クリップと234万の画像からなる大規模な訓練データセットを構築した。これは14,133種をカバーし、34の生態形質ラベルで注釈付けされている。次に、BioCLIP2を基盤として、音響表現を視覚的・テキスト的表現と効果的に連携させるための2段階訓練フレームワークを導入する。第三に、3つのモダリティ間における全ての方向性の検索(画像→音声、音声→テキスト、テキスト→画像、およびその逆方向)を網羅し、科、属、種の3つの分類レベルを備えたクロスモーダル検索ベンチマークを開発した。大規模な実験により、我々のモデルが分類学を超えた種レベルの意味を捉える統合表現空間を学習し、マルチモーダルな生物多様性理解を推進することが実証された。プロジェクトページは以下で公開されている:https://dahlian00.github.io/BioVITA_Page/
English
Understanding animal species from multimodal data poses an emerging challenge at the intersection of computer vision and ecology. While recent biological models, such as BioCLIP, have demonstrated strong alignment between images and textual taxonomic information for species identification, the integration of the audio modality remains an open problem. We propose BioVITA, a novel visual-textual-acoustic alignment framework for biological applications. BioVITA involves (i) a training dataset, (ii) a representation model, and (iii) a retrieval benchmark. First, we construct a large-scale training dataset comprising 1.3 million audio clips and 2.3 million images, covering 14,133 species annotated with 34 ecological trait labels. Second, building upon BioCLIP2, we introduce a two-stage training framework to effectively align audio representations with visual and textual representations. Third, we develop a cross-modal retrieval benchmark that covers all possible directional retrieval across the three modalities (i.e., image-to-audio, audio-to-text, text-to-image, and their reverse directions), with three taxonomic levels: Family, Genus, and Species. Extensive experiments demonstrate that our model learns a unified representation space that captures species-level semantics beyond taxonomy, advancing multimodal biodiversity understanding. The project page is available at: https://dahlian00.github.io/BioVITA_Page/