ChatPaper.aiChatPaper

μ-Bench: 현미경 이해를 위한 비전-언어 벤치마크

μ-Bench: A Vision-Language Benchmark for Microscopy Understanding

July 1, 2024
저자: Alejandro Lozano, Jeffrey Nirschl, James Burgess, Sanket Rajan Gupte, Yuhui Zhang, Alyssa Unell, Serena Yeung-Levy
cs.AI

초록

최근 현미경 기술의 발전으로 세포 생물학 및 생의학 연구 분야에서 테라바이트 단위의 이미지 데이터가 빠르게 생성되고 있습니다. 비전-언어 모델(VLMs)은 대규모 생물학적 이미지 분석을 위한 유망한 솔루션으로, 연구자의 효율성을 높이고 새로운 이미지 바이오마커를 식별하며 가설 생성과 과학적 발견을 가속화할 수 있습니다. 그러나 생물학적 이미지 이해에서 VLMs의 인지 및 인식 능력을 평가하기 위한 표준화되고 다양하며 대규모의 비전-언어 벤치마크가 부족한 실정입니다. 이러한 격차를 해결하기 위해, 우리는 {\mu}-Bench를 소개합니다. 이는 전문가가 선별한 벤치마크로, 다양한 과학 분야(생물학, 병리학), 현미경 방식(전자, 형광, 광학), 규모(세포 내, 세포, 조직), 그리고 정상 및 비정상 상태의 생물체를 아우르는 22개의 생의학 과제를 포함합니다. 우리는 {\mu}-Bench에서 최신 생의학, 병리학 및 일반 VLMs을 평가하고 다음과 같은 결과를 발견했습니다: i) 현재 모델들은 현미경 방식 구분과 같은 기본 과제에서도 모든 범주에서 어려움을 겪습니다; ii) 생의학 데이터에 미세 조정된 현재의 전문가 모델들은 종종 일반 모델들보다 성능이 떨어집니다; iii) 특정 현미경 도메인에서의 미세 조정은 기본 모델에 인코딩된 이전의 생의학 지식을 파괴하는 치명적 망각을 초래할 수 있습니다; iv) 미세 조정된 모델과 사전 학습된 모델 간의 가중치 보간은 망각 문제를 해결하고 생의학 과제 전반에 걸쳐 일반적인 성능을 향상시킬 수 있는 하나의 해결책을 제공합니다. 우리는 {\mu}-Bench를 허가된 라이선스 하에 공개하여 현미경 기반 모델의 연구 및 개발을 가속화하고자 합니다.
English
Recent advances in microscopy have enabled the rapid generation of terabytes of image data in cell biology and biomedical research. Vision-language models (VLMs) offer a promising solution for large-scale biological image analysis, enhancing researchers' efficiency, identifying new image biomarkers, and accelerating hypothesis generation and scientific discovery. However, there is a lack of standardized, diverse, and large-scale vision-language benchmarks to evaluate VLMs' perception and cognition capabilities in biological image understanding. To address this gap, we introduce {\mu}-Bench, an expert-curated benchmark encompassing 22 biomedical tasks across various scientific disciplines (biology, pathology), microscopy modalities (electron, fluorescence, light), scales (subcellular, cellular, tissue), and organisms in both normal and abnormal states. We evaluate state-of-the-art biomedical, pathology, and general VLMs on {\mu}-Bench and find that: i) current models struggle on all categories, even for basic tasks such as distinguishing microscopy modalities; ii) current specialist models fine-tuned on biomedical data often perform worse than generalist models; iii) fine-tuning in specific microscopy domains can cause catastrophic forgetting, eroding prior biomedical knowledge encoded in their base model. iv) weight interpolation between fine-tuned and pre-trained models offers one solution to forgetting and improves general performance across biomedical tasks. We release {\mu}-Bench under a permissive license to accelerate the research and development of microscopy foundation models.

Summary

AI-Generated Summary

PDF71November 28, 2024