Anotação Automática de Características Morfológicas a Nível de Imagem para Imagens de Organismos

Resumo

Os traços morfológicos são características físicas dos organismos biológicos que fornecem pistas vitais sobre como os organismos interagem com o seu ambiente. No entanto, a extração destes traços continua a ser um processo lento e conduzido por especialistas, limitando a sua utilização em estudos ecológicos em larga escala. Um grande obstáculo é a ausência de conjuntos de dados de alta qualidade que liguem imagens biológicas a anotações ao nível dos traços. Neste trabalho, demonstramos que auto codificadores esparsos treinados com características de modelos de base produzem neurónios monossemânticos e espacialmente fundamentados que ativam consistentemente em partes morfológicas significativas. Aproveitando esta propriedade, introduzimos um *pipeline* de anotação de traços que localiza regiões salientes e utiliza *prompting* de visão e linguagem para gerar descrições de traços interpretáveis. Utilizando esta abordagem, construímos o Bioscan-Traits, um conjunto de dados de 80 mil anotações de traços abrangendo 19 mil imagens de insetos do BIOSCAN-5M. A avaliação humana confirma a plausibilidade biológica das descrições morfológicas geradas. Avaliamos a sensibilidade do desenho através de um estudo de ablação abrangente, variando sistematicamente escolhas-chave de desenho e medindo o seu impacto na qualidade das descrições de traços resultantes. Ao anotar traços com um *pipeline* modular em vez de esforços manuais proibitivamente dispendiosos, oferecemos uma forma escalável de injetar supervisão biologicamente significativa em modelos de base, permitir análises morfológicas em larga escala e colmatar o fosso entre a relevância ecológica e a praticidade da aprendizagem automática.

English

Morphological traits are physical characteristics of biological organisms that provide vital clues on how organisms interact with their environment. Yet extracting these traits remains a slow, expert-driven process, limiting their use in large-scale ecological studies. A major bottleneck is the absence of high-quality datasets linking biological images to trait-level annotations. In this work, we demonstrate that sparse autoencoders trained on foundation-model features yield monosemantic, spatially grounded neurons that consistently activate on meaningful morphological parts. Leveraging this property, we introduce a trait annotation pipeline that localizes salient regions and uses vision-language prompting to generate interpretable trait descriptions. Using this approach, we construct Bioscan-Traits, a dataset of 80K trait annotations spanning 19K insect images from BIOSCAN-5M. Human evaluation confirms the biological plausibility of the generated morphological descriptions. We assess design sensitivity through a comprehensive ablation study, systematically varying key design choices and measuring their impact on the quality of the resulting trait descriptions. By annotating traits with a modular pipeline rather than prohibitively expensive manual efforts, we offer a scalable way to inject biologically meaningful supervision into foundation models, enable large-scale morphological analyses, and bridge the gap between ecological relevance and machine-learning practicality.

Anotação Automática de Características Morfológicas a Nível de Imagem para Imagens de Organismos

Automatic Image-Level Morphological Trait Annotation for Organismal Images

Resumo

Support