ChatPaper.aiChatPaper

μ-Bench: Un Benchmark Visione-Linguaggio per la Comprensione Microscopica

μ-Bench: A Vision-Language Benchmark for Microscopy Understanding

July 1, 2024
Autori: Alejandro Lozano, Jeffrey Nirschl, James Burgess, Sanket Rajan Gupte, Yuhui Zhang, Alyssa Unell, Serena Yeung-Levy
cs.AI

Abstract

I recenti progressi nella microscopia hanno permesso la rapida generazione di terabyte di dati immagine nella biologia cellulare e nella ricerca biomedica. I modelli visione-linguaggio (VLMs) offrono una soluzione promettente per l'analisi su larga scala di immagini biologiche, migliorando l'efficienza dei ricercatori, identificando nuovi biomarcatori visivi e accelerando la generazione di ipotesi e la scoperta scientifica. Tuttavia, mancano benchmark visione-linguaggio standardizzati, diversificati e su larga scala per valutare le capacità percettive e cognitive dei VLMs nella comprensione delle immagini biologiche. Per colmare questa lacuna, introduciamo {\mu}-Bench, un benchmark curato da esperti che comprende 22 task biomedici in varie discipline scientifiche (biologia, patologia), modalità microscopiche (elettronica, fluorescenza, luce), scale (subcellulare, cellulare, tissutale) e organismi in stati sia normali che anomali. Valutiamo i migliori VLMs biomedici, patologici e generalisti su {\mu}-Bench e scopriamo che: i) i modelli attuali hanno difficoltà in tutte le categorie, anche per task di base come distinguere le modalità microscopiche; ii) i modelli specialistici attuali, addestrati su dati biomedici, spesso performano peggio dei modelli generalisti; iii) il fine-tuning in specifici domini microscopici può causare un oblio catastrofico, erodendo le conoscenze biomediche precedentemente codificate nel modello base; iv) l'interpolazione dei pesi tra modelli fine-tuned e pre-addestrati offre una soluzione all'oblio e migliora le prestazioni generali nei task biomedici. Rilasciamo {\mu}-Bench con una licenza permissiva per accelerare la ricerca e lo sviluppo di modelli fondazionali per la microscopia.
English
Recent advances in microscopy have enabled the rapid generation of terabytes of image data in cell biology and biomedical research. Vision-language models (VLMs) offer a promising solution for large-scale biological image analysis, enhancing researchers' efficiency, identifying new image biomarkers, and accelerating hypothesis generation and scientific discovery. However, there is a lack of standardized, diverse, and large-scale vision-language benchmarks to evaluate VLMs' perception and cognition capabilities in biological image understanding. To address this gap, we introduce {\mu}-Bench, an expert-curated benchmark encompassing 22 biomedical tasks across various scientific disciplines (biology, pathology), microscopy modalities (electron, fluorescence, light), scales (subcellular, cellular, tissue), and organisms in both normal and abnormal states. We evaluate state-of-the-art biomedical, pathology, and general VLMs on {\mu}-Bench and find that: i) current models struggle on all categories, even for basic tasks such as distinguishing microscopy modalities; ii) current specialist models fine-tuned on biomedical data often perform worse than generalist models; iii) fine-tuning in specific microscopy domains can cause catastrophic forgetting, eroding prior biomedical knowledge encoded in their base model. iv) weight interpolation between fine-tuned and pre-trained models offers one solution to forgetting and improves general performance across biomedical tasks. We release {\mu}-Bench under a permissive license to accelerate the research and development of microscopy foundation models.
PDF71November 28, 2024