μ-Bench : Un benchmark vision-langage pour la compréhension en microscopie

papers.abstract

Les récentes avancées en microscopie ont permis la génération rapide de téraoctets de données d'images en biologie cellulaire et en recherche biomédicale. Les modèles vision-langage (VLMs) offrent une solution prometteuse pour l'analyse à grande échelle d'images biologiques, améliorant l'efficacité des chercheurs, identifiant de nouveaux biomarqueurs visuels, et accélérant la génération d'hypothèses et la découverte scientifique. Cependant, il manque des benchmarks vision-langage standardisés, diversifiés et à grande échelle pour évaluer les capacités de perception et de cognition des VLMs dans la compréhension des images biologiques. Pour combler cette lacune, nous introduisons {\mu}-Bench, un benchmark expert-curated couvrant 22 tâches biomédicales à travers diverses disciplines scientifiques (biologie, pathologie), modalités de microscopie (électronique, fluorescence, lumière), échelles (subcellulaire, cellulaire, tissulaire), et organismes dans des états normaux et anormaux. Nous évaluons les VLMs biomédicaux, pathologiques et généraux de pointe sur {\mu}-Bench et constatons que : i) les modèles actuels peinent dans toutes les catégories, même pour des tâches basiques comme distinguer les modalités de microscopie ; ii) les modèles spécialistes actuels fine-tunés sur des données biomédicales performent souvent moins bien que les modèles généralistes ; iii) le fine-tuning dans des domaines spécifiques de microscopie peut entraîner un oubli catastrophique, érodant les connaissances biomédicales préalablement encodées dans leur modèle de base. iv) l'interpolation de poids entre les modèles fine-tunés et pré-entraînés offre une solution à l'oubli et améliore les performances générales sur les tâches biomédicales. Nous publions {\mu}-Bench sous une licence permissive pour accélérer la recherche et le développement de modèles fondateurs en microscopie.

English

Recent advances in microscopy have enabled the rapid generation of terabytes of image data in cell biology and biomedical research. Vision-language models (VLMs) offer a promising solution for large-scale biological image analysis, enhancing researchers' efficiency, identifying new image biomarkers, and accelerating hypothesis generation and scientific discovery. However, there is a lack of standardized, diverse, and large-scale vision-language benchmarks to evaluate VLMs' perception and cognition capabilities in biological image understanding. To address this gap, we introduce {\mu}-Bench, an expert-curated benchmark encompassing 22 biomedical tasks across various scientific disciplines (biology, pathology), microscopy modalities (electron, fluorescence, light), scales (subcellular, cellular, tissue), and organisms in both normal and abnormal states. We evaluate state-of-the-art biomedical, pathology, and general VLMs on {\mu}-Bench and find that: i) current models struggle on all categories, even for basic tasks such as distinguishing microscopy modalities; ii) current specialist models fine-tuned on biomedical data often perform worse than generalist models; iii) fine-tuning in specific microscopy domains can cause catastrophic forgetting, eroding prior biomedical knowledge encoded in their base model. iv) weight interpolation between fine-tuned and pre-trained models offers one solution to forgetting and improves general performance across biomedical tasks. We release {\mu}-Bench under a permissive license to accelerate the research and development of microscopy foundation models.

μ-Bench : Un benchmark vision-langage pour la compréhension en microscopie

μ-Bench: A Vision-Language Benchmark for Microscopy Understanding

papers.abstract

Support