MicroVQA: Een Multimodaal Redeneerbenchmark voor Microscopie-Gebaseerd Wetenschappelijk Onderzoek
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research
March 17, 2025
Auteurs: James Burgess, Jeffrey J Nirschl, Laura Bravo-Sánchez, Alejandro Lozano, Sanket Rajan Gupte, Jesus G. Galaz-Montoya, Yuhui Zhang, Yuchang Su, Disha Bhowmik, Zachary Coman, Sarina M. Hasan, Alexandra Johannesson, William D. Leineweber, Malvika G Nair, Ridhi Yarlagadda, Connor Zuraski, Wah Chiu, Sarah Cohen, Jan N. Hansen, Manuel D Leonetti, Chad Liu, Emma Lundberg, Serena Yeung-Levy
cs.AI
Samenvatting
Wetenschappelijk onderzoek vereist geavanceerd redeneren over multimodale data, een uitdaging die vooral prominent aanwezig is in de biologie. Ondanks recente vooruitgang in multimodale grote taalmodellen (MLLMs) voor AI-ondersteund onderzoek, richten bestaande benchmarks voor multimodaal redeneren zich alleen op moeilijkheidsgraden tot universitair niveau, terwijl benchmarks op onderzoeksniveau de nadruk leggen op perceptie op lager niveau, wat tekortschiet voor het complexe multimodale redeneren dat nodig is voor wetenschappelijke ontdekkingen. Om deze kloof te overbruggen, introduceren we MicroVQA, een visuele-vraag-antwoord (VQA) benchmark die is ontworpen om drie redeneervaardigheden te beoordelen die essentieel zijn in onderzoekswerkstromen: expertbeeldbegrip, hypothesegeneratie en experimentvoorstel. MicroVQA bestaat uit 1.042 meerkeuzevragen (MCQs) die zijn samengesteld door biologiedeskundigen over diverse microscopiemodaliteiten, waardoor VQA-monsters echte wetenschappelijke praktijk vertegenwoordigen. Bij het opstellen van de benchmark ontdekken we dat standaardmethoden voor MCQ-generatie taalverkortingen veroorzaken, wat aanleiding geeft tot een nieuwe tweefasenpijplijn: een geoptimaliseerde LLM-prompt structureert vraag-antwoordparen in MCQs; vervolgens werkt een agentgebaseerde 'RefineBot' deze bij om verkortingen te verwijderen. Benchmarking op state-of-the-art MLLMs onthult een piekprestatie van 53%; modellen met kleinere LLMs presteren slechts iets minder dan topmodellen, wat suggereert dat taalgebaseerd redeneren minder uitdagend is dan multimodaal redeneren; en afstemming met wetenschappelijke artikelen verbetert de prestaties. Expertanalyse van keten-van-gedachte-reacties toont aan dat perceptiefouten het meest frequent zijn, gevolgd door kennisfouten en daarna overgeneralisatiefouten. Deze inzichten benadrukken de uitdagingen in multimodaal wetenschappelijk redeneren en tonen aan dat MicroVQA een waardevolle bron is die AI-gedreven biomedisch onderzoek vooruithelpt. MicroVQA is beschikbaar op https://huggingface.co/datasets/jmhb/microvqa, en de projectpagina staat op https://jmhb0.github.io/microvqa.
English
Scientific research demands sophisticated reasoning over multimodal data, a
challenge especially prevalent in biology. Despite recent advances in
multimodal large language models (MLLMs) for AI-assisted research, existing
multimodal reasoning benchmarks only target up to college-level difficulty,
while research-level benchmarks emphasize lower-level perception, falling short
of the complex multimodal reasoning needed for scientific discovery. To bridge
this gap, we introduce MicroVQA, a visual-question answering (VQA) benchmark
designed to assess three reasoning capabilities vital in research workflows:
expert image understanding, hypothesis generation, and experiment proposal.
MicroVQA consists of 1,042 multiple-choice questions (MCQs) curated by biology
experts across diverse microscopy modalities, ensuring VQA samples represent
real scientific practice. In constructing the benchmark, we find that standard
MCQ generation methods induce language shortcuts, motivating a new two-stage
pipeline: an optimized LLM prompt structures question-answer pairs into MCQs;
then, an agent-based `RefineBot' updates them to remove shortcuts. Benchmarking
on state-of-the-art MLLMs reveal a peak performance of 53\%; models with
smaller LLMs only slightly underperform top models, suggesting that
language-based reasoning is less challenging than multimodal reasoning; and
tuning with scientific articles enhances performance. Expert analysis of
chain-of-thought responses shows that perception errors are the most frequent,
followed by knowledge errors and then overgeneralization errors. These insights
highlight the challenges in multimodal scientific reasoning, showing MicroVQA
is a valuable resource advancing AI-driven biomedical research. MicroVQA is
available at https://huggingface.co/datasets/jmhb/microvqa, and project page at
https://jmhb0.github.io/microvqa.Summary
AI-Generated Summary