μ-Bench: 顕微鏡理解のための視覚言語ベンチマーク
μ-Bench: A Vision-Language Benchmark for Microscopy Understanding
July 1, 2024
著者: Alejandro Lozano, Jeffrey Nirschl, James Burgess, Sanket Rajan Gupte, Yuhui Zhang, Alyssa Unell, Serena Yeung-Levy
cs.AI
要旨
近年の顕微鏡技術の進歩により、細胞生物学や生物医学研究においてテラバイト規模の画像データが迅速に生成されるようになりました。視覚言語モデル(VLMs)は、大規模な生物画像分析において有望な解決策を提供し、研究者の効率を向上させ、新しい画像バイオマーカーを特定し、仮説生成と科学的発見を加速します。しかし、生物画像理解におけるVLMsの知覚および認知能力を評価するための標準化された多様で大規模な視覚言語ベンチマークが不足しています。このギャップを埋めるため、我々は{\mu}-Benchを導入します。これは、専門家がキュレートしたベンチマークで、さまざまな科学分野(生物学、病理学)、顕微鏡モダリティ(電子、蛍光、光学)、スケール(細胞内、細胞、組織)、および正常および異常状態の生物を網羅する22の生物医学タスクを含みます。我々は、最先端の生物医学、病理学、および一般VLMsを{\mu}-Benchで評価し、以下のことを発見しました:i)現在のモデルは、顕微鏡モダリティの区別などの基本的なタスクを含むすべてのカテゴリーで苦戦している、ii)生物医学データでファインチューニングされた現在の専門モデルは、一般モデルよりもしばしば性能が劣る、iii)特定の顕微鏡領域でのファインチューニングは、基本モデルにエンコードされた以前の生物医学知識を破壊するカタストロフィックフォゲッティングを引き起こす可能性がある、iv)ファインチューニングされたモデルと事前学習されたモデル間の重み補間は、フォゲッティングに対する一つの解決策を提供し、生物医学タスク全体での一般的な性能を向上させます。我々は、顕微鏡基盤モデルの研究開発を加速するため、{\mu}-Benchを許諾ライセンスの下で公開します。
English
Recent advances in microscopy have enabled the rapid generation of terabytes
of image data in cell biology and biomedical research. Vision-language models
(VLMs) offer a promising solution for large-scale biological image analysis,
enhancing researchers' efficiency, identifying new image biomarkers, and
accelerating hypothesis generation and scientific discovery. However, there is
a lack of standardized, diverse, and large-scale vision-language benchmarks to
evaluate VLMs' perception and cognition capabilities in biological image
understanding. To address this gap, we introduce {\mu}-Bench, an expert-curated
benchmark encompassing 22 biomedical tasks across various scientific
disciplines (biology, pathology), microscopy modalities (electron,
fluorescence, light), scales (subcellular, cellular, tissue), and organisms in
both normal and abnormal states. We evaluate state-of-the-art biomedical,
pathology, and general VLMs on {\mu}-Bench and find that: i) current models
struggle on all categories, even for basic tasks such as distinguishing
microscopy modalities; ii) current specialist models fine-tuned on biomedical
data often perform worse than generalist models; iii) fine-tuning in specific
microscopy domains can cause catastrophic forgetting, eroding prior biomedical
knowledge encoded in their base model. iv) weight interpolation between
fine-tuned and pre-trained models offers one solution to forgetting and
improves general performance across biomedical tasks. We release {\mu}-Bench
under a permissive license to accelerate the research and development of
microscopy foundation models.Summary
AI-Generated Summary