MicroVQA: Um Benchmark de Raciocínio Multimodal para Pesquisa Científica Baseada em Microscopia
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research
March 17, 2025
Autores: James Burgess, Jeffrey J Nirschl, Laura Bravo-Sánchez, Alejandro Lozano, Sanket Rajan Gupte, Jesus G. Galaz-Montoya, Yuhui Zhang, Yuchang Su, Disha Bhowmik, Zachary Coman, Sarina M. Hasan, Alexandra Johannesson, William D. Leineweber, Malvika G Nair, Ridhi Yarlagadda, Connor Zuraski, Wah Chiu, Sarah Cohen, Jan N. Hansen, Manuel D Leonetti, Chad Liu, Emma Lundberg, Serena Yeung-Levy
cs.AI
Resumo
A pesquisa científica exige raciocínio sofisticado sobre dados multimodais, um desafio particularmente prevalente na biologia. Apesar dos avanços recentes em modelos de linguagem multimodal de grande escala (MLLMs) para pesquisa assistida por IA, os benchmarks existentes de raciocínio multimodal visam apenas dificuldades de nível universitário, enquanto os benchmarks de nível de pesquisa enfatizam percepção de nível inferior, ficando aquém do raciocínio multimodal complexo necessário para a descoberta científica. Para preencher essa lacuna, introduzimos o MicroVQA, um benchmark de resposta a perguntas visuais (VQA) projetado para avaliar três capacidades de raciocínio vitais em fluxos de trabalho de pesquisa: compreensão de imagens especializadas, geração de hipóteses e proposta de experimentos. O MicroVQA consiste em 1.042 questões de múltipla escolha (MCQs) curadas por especialistas em biologia em diversas modalidades de microscopia, garantindo que as amostras de VQA representem práticas científicas reais. Na construção do benchmark, descobrimos que os métodos padrão de geração de MCQs induzem atalhos linguísticos, motivando um novo pipeline de duas etapas: um prompt otimizado de LLM estrutura pares pergunta-resposta em MCQs; em seguida, um `RefineBot' baseado em agentes os atualiza para remover atalhos. O benchmarking em MLLMs de última geração revela um desempenho máximo de 53%; modelos com LLMs menores têm desempenho apenas ligeiramente inferior aos modelos de topo, sugerindo que o raciocínio baseado em linguagem é menos desafiador do que o raciocínio multimodal; e o ajuste com artigos científicos melhora o desempenho. A análise especializada das respostas de cadeia de pensamento mostra que os erros de percepção são os mais frequentes, seguidos por erros de conhecimento e, em seguida, erros de generalização excessiva. Esses insights destacam os desafios no raciocínio científico multimodal, mostrando que o MicroVQA é um recurso valioso para avançar a pesquisa biomédica impulsionada por IA. O MicroVQA está disponível em https://huggingface.co/datasets/jmhb/microvqa, e a página do projeto em https://jmhb0.github.io/microvqa.
English
Scientific research demands sophisticated reasoning over multimodal data, a
challenge especially prevalent in biology. Despite recent advances in
multimodal large language models (MLLMs) for AI-assisted research, existing
multimodal reasoning benchmarks only target up to college-level difficulty,
while research-level benchmarks emphasize lower-level perception, falling short
of the complex multimodal reasoning needed for scientific discovery. To bridge
this gap, we introduce MicroVQA, a visual-question answering (VQA) benchmark
designed to assess three reasoning capabilities vital in research workflows:
expert image understanding, hypothesis generation, and experiment proposal.
MicroVQA consists of 1,042 multiple-choice questions (MCQs) curated by biology
experts across diverse microscopy modalities, ensuring VQA samples represent
real scientific practice. In constructing the benchmark, we find that standard
MCQ generation methods induce language shortcuts, motivating a new two-stage
pipeline: an optimized LLM prompt structures question-answer pairs into MCQs;
then, an agent-based `RefineBot' updates them to remove shortcuts. Benchmarking
on state-of-the-art MLLMs reveal a peak performance of 53\%; models with
smaller LLMs only slightly underperform top models, suggesting that
language-based reasoning is less challenging than multimodal reasoning; and
tuning with scientific articles enhances performance. Expert analysis of
chain-of-thought responses shows that perception errors are the most frequent,
followed by knowledge errors and then overgeneralization errors. These insights
highlight the challenges in multimodal scientific reasoning, showing MicroVQA
is a valuable resource advancing AI-driven biomedical research. MicroVQA is
available at https://huggingface.co/datasets/jmhb/microvqa, and project page at
https://jmhb0.github.io/microvqa.Summary
AI-Generated Summary