Anotación Automática de Rasgos Morfológicos a Nivel de Imagen para Imágenes de Organismos

Resumen

Los rasgos morfológicos son características físicas de los organismos biológicos que proporcionan pistas vitales sobre cómo interactúan con su entorno. Sin embargo, la extracción de estos rasgos sigue siendo un proceso lento y dependiente de expertos, lo que limita su uso en estudios ecológicos a gran escala. Un cuello de botella principal es la ausencia de conjuntos de datos de alta calidad que vinculen imágenes biológicas con anotaciones a nivel de rasgos. En este trabajo, demostramos que los autoencoders dispersos entrenados con características de modelos fundacionales producen neuronas monosémicas y localizadas espacialmente que se activan consistentemente en partes morfológicas significativas. Aprovechando esta propiedad, presentamos un pipeline de anotación de rasgos que localiza regiones salientes y utiliza la incitación (prompting) visión-lenguaje para generar descripciones de rasgos interpretables. Utilizando este enfoque, construimos Bioscan-Traits, un conjunto de datos de 80.000 anotaciones de rasgos que abarcan 19.000 imágenes de insectos de BIOSCAN-5M. La evaluación humana confirma la plausibilidad biológica de las descripciones morfológicas generadas. Evaluamos la sensibilidad del diseño mediante un estudio de ablación exhaustivo, variando sistemáticamente las decisiones clave de diseño y midiendo su impacto en la calidad de las descripciones de rasgos resultantes. Al anotar rasgos con un pipeline modular en lugar de con esfuerzos manuales prohibitivamente costosos, ofrecemos una forma escalable de inyectar supervisión biológicamente significativa en los modelos fundacionales, permitir análisis morfológicos a gran escala y tender un puente entre la relevancia ecológica y la practicidad del aprendizaje automático.

English

Morphological traits are physical characteristics of biological organisms that provide vital clues on how organisms interact with their environment. Yet extracting these traits remains a slow, expert-driven process, limiting their use in large-scale ecological studies. A major bottleneck is the absence of high-quality datasets linking biological images to trait-level annotations. In this work, we demonstrate that sparse autoencoders trained on foundation-model features yield monosemantic, spatially grounded neurons that consistently activate on meaningful morphological parts. Leveraging this property, we introduce a trait annotation pipeline that localizes salient regions and uses vision-language prompting to generate interpretable trait descriptions. Using this approach, we construct Bioscan-Traits, a dataset of 80K trait annotations spanning 19K insect images from BIOSCAN-5M. Human evaluation confirms the biological plausibility of the generated morphological descriptions. We assess design sensitivity through a comprehensive ablation study, systematically varying key design choices and measuring their impact on the quality of the resulting trait descriptions. By annotating traits with a modular pipeline rather than prohibitively expensive manual efforts, we offer a scalable way to inject biologically meaningful supervision into foundation models, enable large-scale morphological analyses, and bridge the gap between ecological relevance and machine-learning practicality.

Anotación Automática de Rasgos Morfológicos a Nivel de Imagen para Imágenes de Organismos

Automatic Image-Level Morphological Trait Annotation for Organismal Images

Resumen

Support