μ-Bench: Een Vision-Language Benchmark voor Microscopiebegrip

Samenvatting

Recente vooruitgang in microscopie heeft de snelle generatie van terabytes aan beeldgegevens in celbiologie en biomedisch onderzoek mogelijk gemaakt. Vision-language models (VLMs) bieden een veelbelovende oplossing voor grootschalige biologische beeldanalyse, waardoor de efficiëntie van onderzoekers wordt verbeterd, nieuwe beeldbiomarkers worden geïdentificeerd, en de hypothesegeneratie en wetenschappelijke ontdekking worden versneld. Er is echter een gebrek aan gestandaardiseerde, diverse en grootschalige vision-language benchmarks om de perceptie- en cognitiecapaciteiten van VLMs in het begrijpen van biologische beelden te evalueren. Om deze kloof te dichten, introduceren we {\mu}-Bench, een door experts samengestelde benchmark die 22 biomedische taken omvat binnen verschillende wetenschappelijke disciplines (biologie, pathologie), microscopie-modaliteiten (elektronen, fluorescentie, licht), schalen (subcellulair, cellulair, weefsel), en organismen in zowel normale als abnormale toestanden. We evalueren state-of-the-art biomedische, pathologie- en algemene VLMs op {\mu}-Bench en constateren dat: i) huidige modellen moeite hebben met alle categorieën, zelfs voor basistaken zoals het onderscheiden van microscopie-modaliteiten; ii) huidige specialistische modellen die zijn afgestemd op biomedische gegevens vaak slechter presteren dan algemene modellen; iii) afstemming in specifieke microscopiedomeinen kan leiden tot catastrofale vergetelheid, waardoor eerder gecodeerde biomedische kennis in hun basismodel wordt uitgehold; iv) gewichtsinterpolatie tussen afgestemde en vooraf getrainde modellen biedt een oplossing voor vergetelheid en verbetert de algemene prestaties over biomedische taken. We geven {\mu}-Bench vrij onder een permissieve licentie om het onderzoek en de ontwikkeling van microscopie foundation models te versnellen.

English

Recent advances in microscopy have enabled the rapid generation of terabytes of image data in cell biology and biomedical research. Vision-language models (VLMs) offer a promising solution for large-scale biological image analysis, enhancing researchers' efficiency, identifying new image biomarkers, and accelerating hypothesis generation and scientific discovery. However, there is a lack of standardized, diverse, and large-scale vision-language benchmarks to evaluate VLMs' perception and cognition capabilities in biological image understanding. To address this gap, we introduce {\mu}-Bench, an expert-curated benchmark encompassing 22 biomedical tasks across various scientific disciplines (biology, pathology), microscopy modalities (electron, fluorescence, light), scales (subcellular, cellular, tissue), and organisms in both normal and abnormal states. We evaluate state-of-the-art biomedical, pathology, and general VLMs on {\mu}-Bench and find that: i) current models struggle on all categories, even for basic tasks such as distinguishing microscopy modalities; ii) current specialist models fine-tuned on biomedical data often perform worse than generalist models; iii) fine-tuning in specific microscopy domains can cause catastrophic forgetting, eroding prior biomedical knowledge encoded in their base model. iv) weight interpolation between fine-tuned and pre-trained models offers one solution to forgetting and improves general performance across biomedical tasks. We release {\mu}-Bench under a permissive license to accelerate the research and development of microscopy foundation models.

μ-Bench: Een Vision-Language Benchmark voor Microscopiebegrip

μ-Bench: A Vision-Language Benchmark for Microscopy Understanding

Samenvatting

Support