生物画像における画像レベル形態形質の自動注釈
Automatic Image-Level Morphological Trait Annotation for Organismal Images
April 2, 2026
著者: Vardaan Pahuja, Samuel Stevens, Alyson East, Sydne Record, Yu Su
cs.AI
要旨
形態形質は、生物個体が環境とどのように相互作用するかについての重要な手がかりを提供する生物学的特徴である。しかし、これらの形質の抽出は依然として速度が遅く、専門家主導のプロセスに依存しているため、大規模な生態学研究における利用が制限されている。大きなボトルネックは、生物画像と形質レベルの注釈を結び付ける高品質なデータセットの欠如である。本研究では、基盤モデルの特徴量で学習したスパース自己符号化器が、単義的で空間的に接地されたニューロンを生成し、それらが意味のある形態的部分で一貫して活性化することを実証する。この特性を活用し、顕著な領域を局在化させ、視覚言語プロンプトを用いて解釈可能な形質記述を生成する形質注釈パイプラインを提案する。このアプローチを用いて、BIOSCAN-5Mの19,000枚の昆虫画像にまたがる80,000件の形質注釈からなるデータセット、Bioscan-Traitsを構築した。人間による評価は、生成された形態記述の生物学的妥当性を確認する。包括的なアブレーション研究を通じて設計の感度を評価し、主要な設計選択を系統的に変化させ、それらが結果の形質記述の品質に与える影響を測定した。法外にコストのかかる手作業ではなく、モジュール式のパイプラインで形質を注釈することにより、生物学的に意味のある教師信号を基盤モデルに注入するスケーラブルな方法を提供し、大規模な形態解析を可能にし、生態学的関連性と機械学習の実用性の間の隔たりを埋める。
English
Morphological traits are physical characteristics of biological organisms that provide vital clues on how organisms interact with their environment. Yet extracting these traits remains a slow, expert-driven process, limiting their use in large-scale ecological studies. A major bottleneck is the absence of high-quality datasets linking biological images to trait-level annotations. In this work, we demonstrate that sparse autoencoders trained on foundation-model features yield monosemantic, spatially grounded neurons that consistently activate on meaningful morphological parts. Leveraging this property, we introduce a trait annotation pipeline that localizes salient regions and uses vision-language prompting to generate interpretable trait descriptions. Using this approach, we construct Bioscan-Traits, a dataset of 80K trait annotations spanning 19K insect images from BIOSCAN-5M. Human evaluation confirms the biological plausibility of the generated morphological descriptions. We assess design sensitivity through a comprehensive ablation study, systematically varying key design choices and measuring their impact on the quality of the resulting trait descriptions. By annotating traits with a modular pipeline rather than prohibitively expensive manual efforts, we offer a scalable way to inject biologically meaningful supervision into foundation models, enable large-scale morphological analyses, and bridge the gap between ecological relevance and machine-learning practicality.