μ-Bench : Un benchmark vision-langage pour la compréhension en microscopie
μ-Bench: A Vision-Language Benchmark for Microscopy Understanding
July 1, 2024
Auteurs: Alejandro Lozano, Jeffrey Nirschl, James Burgess, Sanket Rajan Gupte, Yuhui Zhang, Alyssa Unell, Serena Yeung-Levy
cs.AI
Résumé
Les récentes avancées en microscopie ont permis la génération rapide de téraoctets de données d'images en biologie cellulaire et en recherche biomédicale. Les modèles vision-langage (VLMs) offrent une solution prometteuse pour l'analyse à grande échelle d'images biologiques, améliorant l'efficacité des chercheurs, identifiant de nouveaux biomarqueurs visuels, et accélérant la génération d'hypothèses et la découverte scientifique. Cependant, il manque des benchmarks vision-langage standardisés, diversifiés et à grande échelle pour évaluer les capacités de perception et de cognition des VLMs dans la compréhension des images biologiques. Pour combler cette lacune, nous introduisons {\mu}-Bench, un benchmark expert-curated couvrant 22 tâches biomédicales à travers diverses disciplines scientifiques (biologie, pathologie), modalités de microscopie (électronique, fluorescence, lumière), échelles (subcellulaire, cellulaire, tissulaire), et organismes dans des états normaux et anormaux. Nous évaluons les VLMs biomédicaux, pathologiques et généraux de pointe sur {\mu}-Bench et constatons que : i) les modèles actuels peinent dans toutes les catégories, même pour des tâches basiques comme distinguer les modalités de microscopie ; ii) les modèles spécialistes actuels fine-tunés sur des données biomédicales performent souvent moins bien que les modèles généralistes ; iii) le fine-tuning dans des domaines spécifiques de microscopie peut entraîner un oubli catastrophique, érodant les connaissances biomédicales préalablement encodées dans leur modèle de base. iv) l'interpolation de poids entre les modèles fine-tunés et pré-entraînés offre une solution à l'oubli et améliore les performances générales sur les tâches biomédicales. Nous publions {\mu}-Bench sous une licence permissive pour accélérer la recherche et le développement de modèles fondateurs en microscopie.
English
Recent advances in microscopy have enabled the rapid generation of terabytes
of image data in cell biology and biomedical research. Vision-language models
(VLMs) offer a promising solution for large-scale biological image analysis,
enhancing researchers' efficiency, identifying new image biomarkers, and
accelerating hypothesis generation and scientific discovery. However, there is
a lack of standardized, diverse, and large-scale vision-language benchmarks to
evaluate VLMs' perception and cognition capabilities in biological image
understanding. To address this gap, we introduce {\mu}-Bench, an expert-curated
benchmark encompassing 22 biomedical tasks across various scientific
disciplines (biology, pathology), microscopy modalities (electron,
fluorescence, light), scales (subcellular, cellular, tissue), and organisms in
both normal and abnormal states. We evaluate state-of-the-art biomedical,
pathology, and general VLMs on {\mu}-Bench and find that: i) current models
struggle on all categories, even for basic tasks such as distinguishing
microscopy modalities; ii) current specialist models fine-tuned on biomedical
data often perform worse than generalist models; iii) fine-tuning in specific
microscopy domains can cause catastrophic forgetting, eroding prior biomedical
knowledge encoded in their base model. iv) weight interpolation between
fine-tuned and pre-trained models offers one solution to forgetting and
improves general performance across biomedical tasks. We release {\mu}-Bench
under a permissive license to accelerate the research and development of
microscopy foundation models.Summary
AI-Generated Summary