Annotation Automatique des Traits Morphologiques au Niveau de l'Image pour les Images d'Organismes

Résumé

Les traits morphologiques sont des caractéristiques physiques des organismes biologiques qui fournissent des indices essentiels sur la manière dont les organismes interagissent avec leur environnement. Pourtant, l'extraction de ces traits reste un processus lent, piloté par des experts, ce qui limite leur utilisation dans les études écologiques à grande échelle. Un goulot d'étranglement majeur est l'absence de jeux de données de haute qualité reliant les images biologiques à des annotations au niveau des traits. Dans ce travail, nous démontrons que des autoencodeurs épars entraînés sur des caractéristiques de modèles de fondation produisent des neurones monosémantiques et spatialement ancrés qui s'activent systématiquement sur des parties morphologiques significatives. En tirant parti de cette propriété, nous introduisons un pipeline d'annotation de traits qui localise les régions saillantes et utilise l'incitation vision-langage pour générer des descriptions de traits interprétables. En utilisant cette approche, nous constituons Bioscan-Traits, un jeu de données de 80 000 annotations de traits couvrant 19 000 images d'insectes issues de BIOSCAN-5M. Une évaluation humaine confirme la plausibilité biologique des descriptions morphologiques générées. Nous évaluons la sensibilité de la conception par une étude d'ablation complète, en faisant varier systématiquement les choix de conception clés et en mesurant leur impact sur la qualité des descriptions de traits résultantes. En annotant les traits avec un pipeline modulaire plutôt que par des efforts manuels prohibitifs, nous offrons un moyen évolutif d'injecter une supervision biologiquement significative dans les modèles de fondation, de permettre des analyses morphologiques à grande échelle et de combler le fossé entre la pertinence écologique et la praticité de l'apprentissage automatique.

English

Morphological traits are physical characteristics of biological organisms that provide vital clues on how organisms interact with their environment. Yet extracting these traits remains a slow, expert-driven process, limiting their use in large-scale ecological studies. A major bottleneck is the absence of high-quality datasets linking biological images to trait-level annotations. In this work, we demonstrate that sparse autoencoders trained on foundation-model features yield monosemantic, spatially grounded neurons that consistently activate on meaningful morphological parts. Leveraging this property, we introduce a trait annotation pipeline that localizes salient regions and uses vision-language prompting to generate interpretable trait descriptions. Using this approach, we construct Bioscan-Traits, a dataset of 80K trait annotations spanning 19K insect images from BIOSCAN-5M. Human evaluation confirms the biological plausibility of the generated morphological descriptions. We assess design sensitivity through a comprehensive ablation study, systematically varying key design choices and measuring their impact on the quality of the resulting trait descriptions. By annotating traits with a modular pipeline rather than prohibitively expensive manual efforts, we offer a scalable way to inject biologically meaningful supervision into foundation models, enable large-scale morphological analyses, and bridge the gap between ecological relevance and machine-learning practicality.

Annotation Automatique des Traits Morphologiques au Niveau de l'Image pour les Images d'Organismes

Automatic Image-Level Morphological Trait Annotation for Organismal Images

Résumé

Support