Automatische annotatie van morfologische kenmerken op beeldniveau voor organismebeelden

Samenvatting

Morfologische kenmerken zijn fysieke eigenschappen van biologische organismen die cruciale aanwijzingen geven over hoe organismen interageren met hun omgeving. Het extraheren van deze kenmerken blijft echter een traag, door experts gedreven proces, wat hun toepassing in grootschalige ecologische studies beperkt. Een belangrijke bottleneck is het ontbreken van hoogwaardige datasets die biologische afbeeldingen koppelen aan annotaties op kenmerkniveau. In dit werk tonen we aan dat sparse auto-encoders, getraind op kenmerken van foundation-modellen, monosemantische, ruimtelijk gelokaliseerde neuronen opleveren die consistent activeren bij betekenisvolle morfologische onderdelen. Gebruikmakend van deze eigenschap introduceren we een pijplijn voor kenmerkannotatie die salientie regio's lokaliseert en vision-language prompting gebruikt om interpreteerbare kenmerkbeschrijvingen te genereren. Met deze aanleggen construeren we Bioscan-Traits, een dataset van 80.000 kenmerkannotaties verspreid over 19.000 insectenafbeeldingen uit BIOSCAN-5M. Menselijke evaluatie bevestigt de biologische plausibiliteit van de gegenereerde morfologische beschrijvingen. We beoordelen de ontwerpgevoeligheid via een uitgebreide ablatiestudie, waarbij we systematisch belangrijke ontwerpkeuzes variëren en hun impact op de kwaliteit van de resulterende kenmerkbeschrijvingen meten. Door kenmerken te annoteren met een modulaire pijplijn in plaats van met prohibitief dure handmatige inspanningen, bieden we een schaalbare manier om biologisch betekenisvolle supervisie in foundation-modellen te injecteren, grootschalige morfologische analyses mogelijk te maken, en de kloof te overbruggen tussen ecologische relevantie en machinelearning-praktijk.

English

Morphological traits are physical characteristics of biological organisms that provide vital clues on how organisms interact with their environment. Yet extracting these traits remains a slow, expert-driven process, limiting their use in large-scale ecological studies. A major bottleneck is the absence of high-quality datasets linking biological images to trait-level annotations. In this work, we demonstrate that sparse autoencoders trained on foundation-model features yield monosemantic, spatially grounded neurons that consistently activate on meaningful morphological parts. Leveraging this property, we introduce a trait annotation pipeline that localizes salient regions and uses vision-language prompting to generate interpretable trait descriptions. Using this approach, we construct Bioscan-Traits, a dataset of 80K trait annotations spanning 19K insect images from BIOSCAN-5M. Human evaluation confirms the biological plausibility of the generated morphological descriptions. We assess design sensitivity through a comprehensive ablation study, systematically varying key design choices and measuring their impact on the quality of the resulting trait descriptions. By annotating traits with a modular pipeline rather than prohibitively expensive manual efforts, we offer a scalable way to inject biologically meaningful supervision into foundation models, enable large-scale morphological analyses, and bridge the gap between ecological relevance and machine-learning practicality.

Automatische annotatie van morfologische kenmerken op beeldniveau voor organismebeelden

Automatic Image-Level Morphological Trait Annotation for Organismal Images

Samenvatting

Support