Автоматическая аннотация морфологических признаков на уровне изображения для организмов
Automatic Image-Level Morphological Trait Annotation for Organismal Images
April 2, 2026
Авторы: Vardaan Pahuja, Samuel Stevens, Alyson East, Sydne Record, Yu Su
cs.AI
Аннотация
Морфологические признаки — это физические характеристики биологических организмов, которые предоставляют важные сведения о том, как организмы взаимодействуют со средой. Однако извлечение этих признаков остается медленным, экспертозависимым процессом, что ограничивает их использование в крупномасштабных экологических исследованиях. Ключевым препятствием является отсутствие качественных наборов данных, связывающих биологические изображения с аннотациями на уровне признаков. В данной работе мы показываем, что разреженные автоэнкодеры, обученные на признаках из базовых моделей, порождают моносемантичные, пространственно локализованные нейроны, которые последовательно активируются на значимых морфологических частях. Используя это свойство, мы представляем конвейер аннотирования признаков, который локализует значимые области и применяет визуально-языковые промпты для генерации интерпретируемых описаний признаков. С помощью этого подхода мы создали Bioscan-Traits — набор данных из 80 тыс. аннотаций признаков, охватывающих 19 тыс. изображений насекомых из BIOSCAN-5M. Экспертная оценка подтверждает биологическую правдоподобность сгенерированных морфологических описаний. Мы оцениваем чувствительность проектных решений с помощью всестороннего исследования методом абляции, систематически варьируя ключевые проектные выборы и измеряя их влияние на качество получаемых описаний признаков. Аннотируя признаки с помощью модульного конвейера вместо чрезвычайно дорогостоящих ручных усилий, мы предлагаем масштабируемый способ внедрения биологически осмысленной разметки в базовые модели, обеспечиваем возможность крупномасштабного морфологического анализа и преодолеваем разрыв между экологической релевантностью и практической применимостью методов машинного обучения.
English
Morphological traits are physical characteristics of biological organisms that provide vital clues on how organisms interact with their environment. Yet extracting these traits remains a slow, expert-driven process, limiting their use in large-scale ecological studies. A major bottleneck is the absence of high-quality datasets linking biological images to trait-level annotations. In this work, we demonstrate that sparse autoencoders trained on foundation-model features yield monosemantic, spatially grounded neurons that consistently activate on meaningful morphological parts. Leveraging this property, we introduce a trait annotation pipeline that localizes salient regions and uses vision-language prompting to generate interpretable trait descriptions. Using this approach, we construct Bioscan-Traits, a dataset of 80K trait annotations spanning 19K insect images from BIOSCAN-5M. Human evaluation confirms the biological plausibility of the generated morphological descriptions. We assess design sensitivity through a comprehensive ablation study, systematically varying key design choices and measuring their impact on the quality of the resulting trait descriptions. By annotating traits with a modular pipeline rather than prohibitively expensive manual efforts, we offer a scalable way to inject biologically meaningful supervision into foundation models, enable large-scale morphological analyses, and bridge the gap between ecological relevance and machine-learning practicality.