MicroVQA: Многомодальный бенчмарк для логического анализа в научных исследованиях на основе микроскопии
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research
March 17, 2025
Авторы: James Burgess, Jeffrey J Nirschl, Laura Bravo-Sánchez, Alejandro Lozano, Sanket Rajan Gupte, Jesus G. Galaz-Montoya, Yuhui Zhang, Yuchang Su, Disha Bhowmik, Zachary Coman, Sarina M. Hasan, Alexandra Johannesson, William D. Leineweber, Malvika G Nair, Ridhi Yarlagadda, Connor Zuraski, Wah Chiu, Sarah Cohen, Jan N. Hansen, Manuel D Leonetti, Chad Liu, Emma Lundberg, Serena Yeung-Levy
cs.AI
Аннотация
Научные исследования требуют сложного анализа мультимодальных данных, что особенно актуально в биологии. Несмотря на недавние достижения в области мультимодальных больших языковых моделей (MLLMs) для исследований с использованием ИИ, существующие тесты на мультимодальное рассуждение охватывают лишь уровень сложности, соответствующий университетскому образованию, в то время как тесты для исследовательского уровня сосредоточены на базовом восприятии, что не соответствует сложному мультимодальному рассуждению, необходимому для научных открытий. Чтобы устранить этот пробел, мы представляем MicroVQA — тест визуального ответа на вопросы (VQA), разработанный для оценки трех ключевых способностей, важных в исследовательских процессах: экспертного понимания изображений, генерации гипотез и предложения экспериментов. MicroVQA состоит из 1042 вопросов с множественным выбором (MCQ), составленных экспертами в области биологии для различных методов микроскопии, что гарантирует, что примеры VQA отражают реальную научную практику. При создании теста мы обнаружили, что стандартные методы генерации MCQ приводят к языковым упрощениям, что побудило нас разработать новый двухэтапный процесс: оптимизированный запрос к LLM структурирует пары вопрос-ответ в MCQ, а затем агент `RefineBot` обновляет их, чтобы устранить упрощения. Тестирование на современных MLLMs показывает пиковую производительность в 53%; модели с меньшими LLM лишь немного уступают лучшим моделям, что указывает на то, что языковое рассуждение менее сложно, чем мультимодальное; а настройка с использованием научных статей улучшает результаты. Экспертный анализ цепочек рассуждений показывает, что ошибки восприятия встречаются чаще всего, за ними следуют ошибки знаний и затем ошибки чрезмерного обобщения. Эти выводы подчеркивают сложности мультимодального научного рассуждения, демонстрируя, что MicroVQA является ценным ресурсом для продвижения ИИ-ориентированных биомедицинских исследований. MicroVQA доступен по адресу https://huggingface.co/datasets/jmhb/microvqa, а страница проекта — по адресу https://jmhb0.github.io/microvqa.
English
Scientific research demands sophisticated reasoning over multimodal data, a
challenge especially prevalent in biology. Despite recent advances in
multimodal large language models (MLLMs) for AI-assisted research, existing
multimodal reasoning benchmarks only target up to college-level difficulty,
while research-level benchmarks emphasize lower-level perception, falling short
of the complex multimodal reasoning needed for scientific discovery. To bridge
this gap, we introduce MicroVQA, a visual-question answering (VQA) benchmark
designed to assess three reasoning capabilities vital in research workflows:
expert image understanding, hypothesis generation, and experiment proposal.
MicroVQA consists of 1,042 multiple-choice questions (MCQs) curated by biology
experts across diverse microscopy modalities, ensuring VQA samples represent
real scientific practice. In constructing the benchmark, we find that standard
MCQ generation methods induce language shortcuts, motivating a new two-stage
pipeline: an optimized LLM prompt structures question-answer pairs into MCQs;
then, an agent-based `RefineBot' updates them to remove shortcuts. Benchmarking
on state-of-the-art MLLMs reveal a peak performance of 53\%; models with
smaller LLMs only slightly underperform top models, suggesting that
language-based reasoning is less challenging than multimodal reasoning; and
tuning with scientific articles enhances performance. Expert analysis of
chain-of-thought responses shows that perception errors are the most frequent,
followed by knowledge errors and then overgeneralization errors. These insights
highlight the challenges in multimodal scientific reasoning, showing MicroVQA
is a valuable resource advancing AI-driven biomedical research. MicroVQA is
available at https://huggingface.co/datasets/jmhb/microvqa, and project page at
https://jmhb0.github.io/microvqa.Summary
AI-Generated Summary