μ-Bench: Een Vision-Language Benchmark voor Microscopiebegrip
μ-Bench: A Vision-Language Benchmark for Microscopy Understanding
July 1, 2024
Auteurs: Alejandro Lozano, Jeffrey Nirschl, James Burgess, Sanket Rajan Gupte, Yuhui Zhang, Alyssa Unell, Serena Yeung-Levy
cs.AI
Samenvatting
Recente vooruitgang in microscopie heeft de snelle generatie van terabytes aan beeldgegevens in celbiologie en biomedisch onderzoek mogelijk gemaakt. Vision-language models (VLMs) bieden een veelbelovende oplossing voor grootschalige biologische beeldanalyse, waardoor de efficiëntie van onderzoekers wordt verbeterd, nieuwe beeldbiomarkers worden geïdentificeerd, en de hypothesegeneratie en wetenschappelijke ontdekking worden versneld. Er is echter een gebrek aan gestandaardiseerde, diverse en grootschalige vision-language benchmarks om de perceptie- en cognitiecapaciteiten van VLMs in het begrijpen van biologische beelden te evalueren. Om deze kloof te dichten, introduceren we {\mu}-Bench, een door experts samengestelde benchmark die 22 biomedische taken omvat binnen verschillende wetenschappelijke disciplines (biologie, pathologie), microscopie-modaliteiten (elektronen, fluorescentie, licht), schalen (subcellulair, cellulair, weefsel), en organismen in zowel normale als abnormale toestanden. We evalueren state-of-the-art biomedische, pathologie- en algemene VLMs op {\mu}-Bench en constateren dat: i) huidige modellen moeite hebben met alle categorieën, zelfs voor basistaken zoals het onderscheiden van microscopie-modaliteiten; ii) huidige specialistische modellen die zijn afgestemd op biomedische gegevens vaak slechter presteren dan algemene modellen; iii) afstemming in specifieke microscopiedomeinen kan leiden tot catastrofale vergetelheid, waardoor eerder gecodeerde biomedische kennis in hun basismodel wordt uitgehold; iv) gewichtsinterpolatie tussen afgestemde en vooraf getrainde modellen biedt een oplossing voor vergetelheid en verbetert de algemene prestaties over biomedische taken. We geven {\mu}-Bench vrij onder een permissieve licentie om het onderzoek en de ontwikkeling van microscopie foundation models te versnellen.
English
Recent advances in microscopy have enabled the rapid generation of terabytes
of image data in cell biology and biomedical research. Vision-language models
(VLMs) offer a promising solution for large-scale biological image analysis,
enhancing researchers' efficiency, identifying new image biomarkers, and
accelerating hypothesis generation and scientific discovery. However, there is
a lack of standardized, diverse, and large-scale vision-language benchmarks to
evaluate VLMs' perception and cognition capabilities in biological image
understanding. To address this gap, we introduce {\mu}-Bench, an expert-curated
benchmark encompassing 22 biomedical tasks across various scientific
disciplines (biology, pathology), microscopy modalities (electron,
fluorescence, light), scales (subcellular, cellular, tissue), and organisms in
both normal and abnormal states. We evaluate state-of-the-art biomedical,
pathology, and general VLMs on {\mu}-Bench and find that: i) current models
struggle on all categories, even for basic tasks such as distinguishing
microscopy modalities; ii) current specialist models fine-tuned on biomedical
data often perform worse than generalist models; iii) fine-tuning in specific
microscopy domains can cause catastrophic forgetting, eroding prior biomedical
knowledge encoded in their base model. iv) weight interpolation between
fine-tuned and pre-trained models offers one solution to forgetting and
improves general performance across biomedical tasks. We release {\mu}-Bench
under a permissive license to accelerate the research and development of
microscopy foundation models.