MicroVQA: Un Benchmark di Ragionamento Multimodale per la Ricerca Scientifica Basata sulla Microscopia
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research
March 17, 2025
Autori: James Burgess, Jeffrey J Nirschl, Laura Bravo-Sánchez, Alejandro Lozano, Sanket Rajan Gupte, Jesus G. Galaz-Montoya, Yuhui Zhang, Yuchang Su, Disha Bhowmik, Zachary Coman, Sarina M. Hasan, Alexandra Johannesson, William D. Leineweber, Malvika G Nair, Ridhi Yarlagadda, Connor Zuraski, Wah Chiu, Sarah Cohen, Jan N. Hansen, Manuel D Leonetti, Chad Liu, Emma Lundberg, Serena Yeung-Levy
cs.AI
Abstract
La ricerca scientifica richiede un ragionamento sofisticato su dati multimodali, una sfida particolarmente rilevante in biologia. Nonostante i recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLMs) per la ricerca assistita dall'IA, i benchmark esistenti per il ragionamento multimodale si limitano a difficoltà di livello universitario, mentre i benchmark di livello di ricerca si concentrano su percezioni di livello inferiore, non raggiungendo la complessità del ragionamento multimodale necessario per la scoperta scientifica. Per colmare questa lacuna, introduciamo MicroVQA, un benchmark di risposta a domande visive (VQA) progettato per valutare tre capacità di ragionamento cruciali nei flussi di lavoro di ricerca: comprensione esperta delle immagini, generazione di ipotesi e proposta di esperimenti. MicroVQA consiste in 1.042 domande a scelta multipla (MCQ) curate da esperti di biologia su diverse modalità di microscopia, garantendo che i campioni VQA rappresentino la pratica scientifica reale. Nella costruzione del benchmark, abbiamo riscontrato che i metodi standard di generazione di MCQ inducono scorciatoie linguistiche, motivando un nuovo processo in due fasi: un prompt ottimizzato per LLM struttura coppie domanda-risposta in MCQ; poi, un agente basato su `RefineBot' le aggiorna per rimuovere le scorciatoie. Il benchmarking sui migliori MLLMs rivela una performance massima del 53%; i modelli con LLM più piccoli hanno prestazioni solo leggermente inferiori ai modelli migliori, suggerendo che il ragionamento basato sul linguaggio è meno impegnativo del ragionamento multimodale; e l'ottimizzazione con articoli scientifici migliora le prestazioni. L'analisi esperta delle risposte a catena di pensiero mostra che gli errori di percezione sono i più frequenti, seguiti da errori di conoscenza e poi da errori di sovrageneralizzazione. Queste intuizioni evidenziano le sfide nel ragionamento scientifico multimodale, dimostrando che MicroVQA è una risorsa preziosa per avanzare la ricerca biomedica guidata dall'IA. MicroVQA è disponibile all'indirizzo https://huggingface.co/datasets/jmhb/microvqa, e la pagina del progetto all'indirizzo https://jmhb0.github.io/microvqa.
English
Scientific research demands sophisticated reasoning over multimodal data, a
challenge especially prevalent in biology. Despite recent advances in
multimodal large language models (MLLMs) for AI-assisted research, existing
multimodal reasoning benchmarks only target up to college-level difficulty,
while research-level benchmarks emphasize lower-level perception, falling short
of the complex multimodal reasoning needed for scientific discovery. To bridge
this gap, we introduce MicroVQA, a visual-question answering (VQA) benchmark
designed to assess three reasoning capabilities vital in research workflows:
expert image understanding, hypothesis generation, and experiment proposal.
MicroVQA consists of 1,042 multiple-choice questions (MCQs) curated by biology
experts across diverse microscopy modalities, ensuring VQA samples represent
real scientific practice. In constructing the benchmark, we find that standard
MCQ generation methods induce language shortcuts, motivating a new two-stage
pipeline: an optimized LLM prompt structures question-answer pairs into MCQs;
then, an agent-based `RefineBot' updates them to remove shortcuts. Benchmarking
on state-of-the-art MLLMs reveal a peak performance of 53\%; models with
smaller LLMs only slightly underperform top models, suggesting that
language-based reasoning is less challenging than multimodal reasoning; and
tuning with scientific articles enhances performance. Expert analysis of
chain-of-thought responses shows that perception errors are the most frequent,
followed by knowledge errors and then overgeneralization errors. These insights
highlight the challenges in multimodal scientific reasoning, showing MicroVQA
is a valuable resource advancing AI-driven biomedical research. MicroVQA is
available at https://huggingface.co/datasets/jmhb/microvqa, and project page at
https://jmhb0.github.io/microvqa.