μ-Bench: Un conjunto de pruebas de visión y lenguaje para la comprensión de la microscopía

Resumen

Los avances recientes en microscopía han permitido la generación rápida de terabytes de datos de imágenes en biología celular e investigación biomédica. Los modelos visión-lenguaje (VLMs) ofrecen una solución prometedora para el análisis de imágenes biológicas a gran escala, mejorando la eficiencia de los investigadores, identificando nuevos biomarcadores de imagen y acelerando la generación de hipótesis y el descubrimiento científico. Sin embargo, existe una falta de bancos de pruebas visión-lenguaje estandarizados, diversos y a gran escala para evaluar las capacidades de percepción y cognición de los VLMs en la comprensión de imágenes biológicas. Para abordar esta brecha, presentamos {\mu}-Bench, un banco de pruebas experto que abarca 22 tareas biomédicas en diversas disciplinas científicas (biología, patología), modalidades de microscopía (electrónica, de fluorescencia, de luz), escalas (subcelular, celular, de tejido) y organismos en estados normales y anormales. Evaluamos los VLMs biomédicos, de patología y generales más avanzados en {\mu}-Bench y encontramos que: i) los modelos actuales tienen dificultades en todas las categorías, incluso para tareas básicas como distinguir modalidades de microscopía; ii) los modelos especializados actuales ajustados en datos biomédicos a menudo tienen un rendimiento inferior a los modelos generalistas; iii) el ajuste fino en dominios específicos de microscopía puede causar un olvido catastrófico, erosionando el conocimiento biomédico previo codificado en su modelo base. iv) la interpolación de pesos entre modelos ajustados y pre-entrenados ofrece una solución al olvido y mejora el rendimiento general en tareas biomédicas. Publicamos {\mu}-Bench bajo una licencia permisiva para acelerar la investigación y desarrollo de modelos fundamentales de microscopía.

English

Recent advances in microscopy have enabled the rapid generation of terabytes of image data in cell biology and biomedical research. Vision-language models (VLMs) offer a promising solution for large-scale biological image analysis, enhancing researchers' efficiency, identifying new image biomarkers, and accelerating hypothesis generation and scientific discovery. However, there is a lack of standardized, diverse, and large-scale vision-language benchmarks to evaluate VLMs' perception and cognition capabilities in biological image understanding. To address this gap, we introduce {\mu}-Bench, an expert-curated benchmark encompassing 22 biomedical tasks across various scientific disciplines (biology, pathology), microscopy modalities (electron, fluorescence, light), scales (subcellular, cellular, tissue), and organisms in both normal and abnormal states. We evaluate state-of-the-art biomedical, pathology, and general VLMs on {\mu}-Bench and find that: i) current models struggle on all categories, even for basic tasks such as distinguishing microscopy modalities; ii) current specialist models fine-tuned on biomedical data often perform worse than generalist models; iii) fine-tuning in specific microscopy domains can cause catastrophic forgetting, eroding prior biomedical knowledge encoded in their base model. iv) weight interpolation between fine-tuned and pre-trained models offers one solution to forgetting and improves general performance across biomedical tasks. We release {\mu}-Bench under a permissive license to accelerate the research and development of microscopy foundation models.

μ-Bench: Un conjunto de pruebas de visión y lenguaje para la comprensión de la microscopía

μ-Bench: A Vision-Language Benchmark for Microscopy Understanding

Resumen

Support