MicroVQA: 현미경 기반 과학 연구를 위한 다중모달 추론 벤치마크
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research
March 17, 2025
저자: James Burgess, Jeffrey J Nirschl, Laura Bravo-Sánchez, Alejandro Lozano, Sanket Rajan Gupte, Jesus G. Galaz-Montoya, Yuhui Zhang, Yuchang Su, Disha Bhowmik, Zachary Coman, Sarina M. Hasan, Alexandra Johannesson, William D. Leineweber, Malvika G Nair, Ridhi Yarlagadda, Connor Zuraski, Wah Chiu, Sarah Cohen, Jan N. Hansen, Manuel D Leonetti, Chad Liu, Emma Lundberg, Serena Yeung-Levy
cs.AI
초록
과학 연구는 다중 모드 데이터에 대한 정교한 추론을 요구하며, 이는 특히 생물학 분야에서 두드러진 과제입니다. 최근 AI 지원 연구를 위한 다중 모드 대형 언어 모델(MLLMs)의 발전에도 불구하고, 기존의 다중 모드 추론 벤치마크는 대학 수준의 난이도까지만 다루고 있으며, 연구 수준의 벤치마크는 하위 수준의 인지에 초점을 맞추어 과학적 발견에 필요한 복잡한 다중 모드 추론을 충족시키지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 연구 워크플로우에서 중요한 세 가지 추론 능력인 전문가 수준의 이미지 이해, 가설 생성, 실험 제안을 평가하기 위해 설계된 시각적 질문 응답(VQA) 벤치마크인 MicroVQA를 소개합니다. MicroVQA는 다양한 현미경 모달리티에 걸쳐 생물학 전문가들이 선별한 1,042개의 객관식 질문(MCQs)으로 구성되어 있으며, VQA 샘플이 실제 과학적 실습을 반영하도록 보장합니다. 벤치마크를 구축하는 과정에서, 표준 MCQ 생성 방법이 언어적 단축을 유도한다는 것을 발견하여, 새로운 두 단계 파이프라인을 제안했습니다: 최적화된 LLM 프롬프트가 질문-답변 쌍을 MCQs로 구조화하고, 에이전트 기반의 `RefineBot'이 이를 업데이트하여 단축을 제거합니다. 최신 MLLMs에 대한 벤치마킹 결과, 최고 성능은 53%로 나타났으며, 더 작은 LLMs를 사용한 모델이 최상위 모델에 비해 약간 뒤처지는 것으로 나타나 언어 기반 추론이 다중 모드 추론보다 덜 어려운 것으로 보입니다. 또한 과학 논문으로 튜닝하면 성능이 향상됩니다. 사고의 연쇄(chain-of-thought) 응답에 대한 전문가 분석은 인지 오류가 가장 빈번하게 발생하며, 그 다음으로 지식 오류와 과도한 일반화 오류가 뒤따르는 것으로 나타났습니다. 이러한 통찰은 다중 모드 과학적 추론의 과제를 강조하며, MicroVQA가 AI 기반 생물의학 연구를 발전시키는 데 유용한 자원임을 보여줍니다. MicroVQA는 https://huggingface.co/datasets/jmhb/microvqa에서 확인할 수 있으며, 프로젝트 페이지는 https://jmhb0.github.io/microvqa에서 확인할 수 있습니다.
English
Scientific research demands sophisticated reasoning over multimodal data, a
challenge especially prevalent in biology. Despite recent advances in
multimodal large language models (MLLMs) for AI-assisted research, existing
multimodal reasoning benchmarks only target up to college-level difficulty,
while research-level benchmarks emphasize lower-level perception, falling short
of the complex multimodal reasoning needed for scientific discovery. To bridge
this gap, we introduce MicroVQA, a visual-question answering (VQA) benchmark
designed to assess three reasoning capabilities vital in research workflows:
expert image understanding, hypothesis generation, and experiment proposal.
MicroVQA consists of 1,042 multiple-choice questions (MCQs) curated by biology
experts across diverse microscopy modalities, ensuring VQA samples represent
real scientific practice. In constructing the benchmark, we find that standard
MCQ generation methods induce language shortcuts, motivating a new two-stage
pipeline: an optimized LLM prompt structures question-answer pairs into MCQs;
then, an agent-based `RefineBot' updates them to remove shortcuts. Benchmarking
on state-of-the-art MLLMs reveal a peak performance of 53\%; models with
smaller LLMs only slightly underperform top models, suggesting that
language-based reasoning is less challenging than multimodal reasoning; and
tuning with scientific articles enhances performance. Expert analysis of
chain-of-thought responses shows that perception errors are the most frequent,
followed by knowledge errors and then overgeneralization errors. These insights
highlight the challenges in multimodal scientific reasoning, showing MicroVQA
is a valuable resource advancing AI-driven biomedical research. MicroVQA is
available at https://huggingface.co/datasets/jmhb/microvqa, and project page at
https://jmhb0.github.io/microvqa.Summary
AI-Generated Summary