Primeiro Exame dos Cientistas: Investigando as Habilidades Cognitivas de MLLM por meio de Percepção, Compreensão e Raciocínio

Resumo

As descobertas científicas estão cada vez mais dependentes de raciocínio multimodal complexo, baseado em dados científicos intensivos em informação e expertise específica de domínio. Potencializados por benchmarks científicos de nível especialista, os Modelos de Linguagem Multimodal Científicos (MLLMs) têm o potencial de aprimorar significativamente esse processo de descoberta em fluxos de trabalho realistas. No entanto, os benchmarks científicos atuais concentram-se principalmente em avaliar as capacidades de compreensão de conhecimento dos MLLMs, resultando em uma avaliação inadequada de suas habilidades de percepção e raciocínio. Para abordar essa lacuna, apresentamos o benchmark Scientists' First Exam (SFE), projetado para avaliar as capacidades cognitivas científicas dos MLLMs por meio de três níveis interconectados: percepção de sinais científicos, compreensão de atributos científicos e raciocínio comparativo científico. Especificamente, o SFE compreende 830 pares de perguntas e respostas (VQA) verificados por especialistas, abrangendo três tipos de questões e 66 tarefas multimodais em cinco disciplinas de alto valor. Experimentos extensivos revelam que os modelos state-of-the-art atuais, GPT-3 e InternVL-3, atingem apenas 34,08% e 26,52% no SFE, destacando um espaço significativo para melhoria dos MLLMs em domínios científicos. Esperamos que os insights obtidos no SFE facilitem avanços adicionais em descobertas científicas aprimoradas por IA.

English

Scientific discoveries increasingly rely on complex multimodal reasoning based on information-intensive scientific data and domain-specific expertise. Empowered by expert-level scientific benchmarks, scientific Multimodal Large Language Models (MLLMs) hold the potential to significantly enhance this discovery process in realistic workflows. However, current scientific benchmarks mostly focus on evaluating the knowledge understanding capabilities of MLLMs, leading to an inadequate assessment of their perception and reasoning abilities. To address this gap, we present the Scientists' First Exam (SFE) benchmark, designed to evaluate the scientific cognitive capacities of MLLMs through three interconnected levels: scientific signal perception, scientific attribute understanding, scientific comparative reasoning. Specifically, SFE comprises 830 expert-verified VQA pairs across three question types, spanning 66 multimodal tasks across five high-value disciplines. Extensive experiments reveal that current state-of-the-art GPT-o3 and InternVL-3 achieve only 34.08% and 26.52% on SFE, highlighting significant room for MLLMs to improve in scientific realms. We hope the insights obtained in SFE will facilitate further developments in AI-enhanced scientific discoveries.

Primeiro Exame dos Cientistas: Investigando as Habilidades Cognitivas de MLLM por meio de Percepção, Compreensão e Raciocínio

Scientists' First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning

Resumo

Support