Automatische bildbezogene Annotation morphologischer Merkmale für organismische Bilder

Zusammenfassung

Morphologische Merkmale sind physische Eigenschaften biologischer Organismen, die wichtige Hinweise darauf liefern, wie Organismen mit ihrer Umwelt interagieren. Dennoch bleibt die Extraktion dieser Merkmale ein langsamer, expertengetriebener Prozess, was ihre Nutzung in groß angelegten ökologischen Studien einschränkt. Ein Hauptengpass ist das Fehlen hochwertiger Datensätze, die biologische Bilder mit Merkmalsannotationen verknüpfen. In dieser Arbeit zeigen wir, dass sparse Autoencoder, die auf Merkmalen von Foundation-Modellen trainiert werden, monosemantische, räumlich verankerte Neuronen hervorbringen, die konsistent auf bedeutungsvolle morphologische Teile ansprechen. Indem wir diese Eigenschaft nutzen, stellen wir einen Annotationspipeline für Merkmale vor, der salienten Regionen lokalisiert und visuell-sprachliche Prompting verwendet, um interpretierbare Merkmalsbeschreibungen zu generieren. Mit diesem Ansatz erstellen wir Bioscan-Traits, einen Datensatz mit 80.000 Merkmalsannotationen, die 19.000 Insektenbilder aus BIOSCAN-5M umfassen. Eine humane Evaluation bestätigt die biologische Plausibilität der generierten morphologischen Beschreibungen. Wir bewerten die Empfindlichkeit des Designs durch eine umfassende Ablationsstudie, bei der systematisch Schlüsselentscheidungen variiert und deren Auswirkung auf die Qualität der resultierenden Merkmalsbeschreibungen gemessen wird. Indem wir Merkmale mit einem modularen Pipeline-Ansatz anstatt durch prohibitiv aufwändige manuelle Arbeit annotieren, bieten wir eine skalierbare Methode, um biologisch bedeutungsvolle Supervision in Foundation-Modelle zu injizieren, großangelegte morphologische Analysen zu ermöglichen und die Lücke zwischen ökologischer Relevanz und maschineller Praktikabilität zu schließen.

English

Morphological traits are physical characteristics of biological organisms that provide vital clues on how organisms interact with their environment. Yet extracting these traits remains a slow, expert-driven process, limiting their use in large-scale ecological studies. A major bottleneck is the absence of high-quality datasets linking biological images to trait-level annotations. In this work, we demonstrate that sparse autoencoders trained on foundation-model features yield monosemantic, spatially grounded neurons that consistently activate on meaningful morphological parts. Leveraging this property, we introduce a trait annotation pipeline that localizes salient regions and uses vision-language prompting to generate interpretable trait descriptions. Using this approach, we construct Bioscan-Traits, a dataset of 80K trait annotations spanning 19K insect images from BIOSCAN-5M. Human evaluation confirms the biological plausibility of the generated morphological descriptions. We assess design sensitivity through a comprehensive ablation study, systematically varying key design choices and measuring their impact on the quality of the resulting trait descriptions. By annotating traits with a modular pipeline rather than prohibitively expensive manual efforts, we offer a scalable way to inject biologically meaningful supervision into foundation models, enable large-scale morphological analyses, and bridge the gap between ecological relevance and machine-learning practicality.

Automatische bildbezogene Annotation morphologischer Merkmale für organismische Bilder

Automatic Image-Level Morphological Trait Annotation for Organismal Images

Zusammenfassung

Support