μ-Bench: Un conjunto de pruebas de visión y lenguaje para la comprensión de la microscopía
μ-Bench: A Vision-Language Benchmark for Microscopy Understanding
July 1, 2024
Autores: Alejandro Lozano, Jeffrey Nirschl, James Burgess, Sanket Rajan Gupte, Yuhui Zhang, Alyssa Unell, Serena Yeung-Levy
cs.AI
Resumen
Los avances recientes en microscopía han permitido la generación rápida de terabytes de datos de imágenes en biología celular e investigación biomédica. Los modelos visión-lenguaje (VLMs) ofrecen una solución prometedora para el análisis de imágenes biológicas a gran escala, mejorando la eficiencia de los investigadores, identificando nuevos biomarcadores de imagen y acelerando la generación de hipótesis y el descubrimiento científico. Sin embargo, existe una falta de bancos de pruebas visión-lenguaje estandarizados, diversos y a gran escala para evaluar las capacidades de percepción y cognición de los VLMs en la comprensión de imágenes biológicas. Para abordar esta brecha, presentamos {\mu}-Bench, un banco de pruebas experto que abarca 22 tareas biomédicas en diversas disciplinas científicas (biología, patología), modalidades de microscopía (electrónica, de fluorescencia, de luz), escalas (subcelular, celular, de tejido) y organismos en estados normales y anormales. Evaluamos los VLMs biomédicos, de patología y generales más avanzados en {\mu}-Bench y encontramos que: i) los modelos actuales tienen dificultades en todas las categorías, incluso para tareas básicas como distinguir modalidades de microscopía; ii) los modelos especializados actuales ajustados en datos biomédicos a menudo tienen un rendimiento inferior a los modelos generalistas; iii) el ajuste fino en dominios específicos de microscopía puede causar un olvido catastrófico, erosionando el conocimiento biomédico previo codificado en su modelo base. iv) la interpolación de pesos entre modelos ajustados y pre-entrenados ofrece una solución al olvido y mejora el rendimiento general en tareas biomédicas. Publicamos {\mu}-Bench bajo una licencia permisiva para acelerar la investigación y desarrollo de modelos fundamentales de microscopía.
English
Recent advances in microscopy have enabled the rapid generation of terabytes
of image data in cell biology and biomedical research. Vision-language models
(VLMs) offer a promising solution for large-scale biological image analysis,
enhancing researchers' efficiency, identifying new image biomarkers, and
accelerating hypothesis generation and scientific discovery. However, there is
a lack of standardized, diverse, and large-scale vision-language benchmarks to
evaluate VLMs' perception and cognition capabilities in biological image
understanding. To address this gap, we introduce {\mu}-Bench, an expert-curated
benchmark encompassing 22 biomedical tasks across various scientific
disciplines (biology, pathology), microscopy modalities (electron,
fluorescence, light), scales (subcellular, cellular, tissue), and organisms in
both normal and abnormal states. We evaluate state-of-the-art biomedical,
pathology, and general VLMs on {\mu}-Bench and find that: i) current models
struggle on all categories, even for basic tasks such as distinguishing
microscopy modalities; ii) current specialist models fine-tuned on biomedical
data often perform worse than generalist models; iii) fine-tuning in specific
microscopy domains can cause catastrophic forgetting, eroding prior biomedical
knowledge encoded in their base model. iv) weight interpolation between
fine-tuned and pre-trained models offers one solution to forgetting and
improves general performance across biomedical tasks. We release {\mu}-Bench
under a permissive license to accelerate the research and development of
microscopy foundation models.Summary
AI-Generated Summary