ChatPaper.aiChatPaper

MicroVQA: Многомодальный бенчмарк для логического анализа в научных исследованиях на основе микроскопии

MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research

March 17, 2025
Авторы: James Burgess, Jeffrey J Nirschl, Laura Bravo-Sánchez, Alejandro Lozano, Sanket Rajan Gupte, Jesus G. Galaz-Montoya, Yuhui Zhang, Yuchang Su, Disha Bhowmik, Zachary Coman, Sarina M. Hasan, Alexandra Johannesson, William D. Leineweber, Malvika G Nair, Ridhi Yarlagadda, Connor Zuraski, Wah Chiu, Sarah Cohen, Jan N. Hansen, Manuel D Leonetti, Chad Liu, Emma Lundberg, Serena Yeung-Levy
cs.AI

Аннотация

Научные исследования требуют сложного анализа мультимодальных данных, что особенно актуально в биологии. Несмотря на недавние достижения в области мультимодальных больших языковых моделей (MLLMs) для исследований с использованием ИИ, существующие тесты на мультимодальное рассуждение охватывают лишь уровень сложности, соответствующий университетскому образованию, в то время как тесты для исследовательского уровня сосредоточены на базовом восприятии, что не соответствует сложному мультимодальному рассуждению, необходимому для научных открытий. Чтобы устранить этот пробел, мы представляем MicroVQA — тест визуального ответа на вопросы (VQA), разработанный для оценки трех ключевых способностей, важных в исследовательских процессах: экспертного понимания изображений, генерации гипотез и предложения экспериментов. MicroVQA состоит из 1042 вопросов с множественным выбором (MCQ), составленных экспертами в области биологии для различных методов микроскопии, что гарантирует, что примеры VQA отражают реальную научную практику. При создании теста мы обнаружили, что стандартные методы генерации MCQ приводят к языковым упрощениям, что побудило нас разработать новый двухэтапный процесс: оптимизированный запрос к LLM структурирует пары вопрос-ответ в MCQ, а затем агент `RefineBot` обновляет их, чтобы устранить упрощения. Тестирование на современных MLLMs показывает пиковую производительность в 53%; модели с меньшими LLM лишь немного уступают лучшим моделям, что указывает на то, что языковое рассуждение менее сложно, чем мультимодальное; а настройка с использованием научных статей улучшает результаты. Экспертный анализ цепочек рассуждений показывает, что ошибки восприятия встречаются чаще всего, за ними следуют ошибки знаний и затем ошибки чрезмерного обобщения. Эти выводы подчеркивают сложности мультимодального научного рассуждения, демонстрируя, что MicroVQA является ценным ресурсом для продвижения ИИ-ориентированных биомедицинских исследований. MicroVQA доступен по адресу https://huggingface.co/datasets/jmhb/microvqa, а страница проекта — по адресу https://jmhb0.github.io/microvqa.
English
Scientific research demands sophisticated reasoning over multimodal data, a challenge especially prevalent in biology. Despite recent advances in multimodal large language models (MLLMs) for AI-assisted research, existing multimodal reasoning benchmarks only target up to college-level difficulty, while research-level benchmarks emphasize lower-level perception, falling short of the complex multimodal reasoning needed for scientific discovery. To bridge this gap, we introduce MicroVQA, a visual-question answering (VQA) benchmark designed to assess three reasoning capabilities vital in research workflows: expert image understanding, hypothesis generation, and experiment proposal. MicroVQA consists of 1,042 multiple-choice questions (MCQs) curated by biology experts across diverse microscopy modalities, ensuring VQA samples represent real scientific practice. In constructing the benchmark, we find that standard MCQ generation methods induce language shortcuts, motivating a new two-stage pipeline: an optimized LLM prompt structures question-answer pairs into MCQs; then, an agent-based `RefineBot' updates them to remove shortcuts. Benchmarking on state-of-the-art MLLMs reveal a peak performance of 53\%; models with smaller LLMs only slightly underperform top models, suggesting that language-based reasoning is less challenging than multimodal reasoning; and tuning with scientific articles enhances performance. Expert analysis of chain-of-thought responses shows that perception errors are the most frequent, followed by knowledge errors and then overgeneralization errors. These insights highlight the challenges in multimodal scientific reasoning, showing MicroVQA is a valuable resource advancing AI-driven biomedical research. MicroVQA is available at https://huggingface.co/datasets/jmhb/microvqa, and project page at https://jmhb0.github.io/microvqa.

Summary

AI-Generated Summary

PDF212March 18, 2025