Primeiro Exame dos Cientistas: Investigando as Habilidades Cognitivas de MLLM por meio de Percepção, Compreensão e Raciocínio
Scientists' First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning
June 12, 2025
Autores: Yuhao Zhou, Yiheng Wang, Xuming He, Ruoyao Xiao, Zhiwei Li, Qiantai Feng, Zijie Guo, Yuejin Yang, Hao Wu, Wenxuan Huang, Jiaqi Wei, Dan Si, Xiuqi Yao, Jia Bu, Haiwen Huang, Tianfan Fu, Shixiang Tang, Ben Fei, Dongzhan Zhou, Fenghua Ling, Yan Lu, Siqi Sun, Chenhui Li, Guanjie Zheng, Jiancheng Lv, Wenlong Zhang, Lei Bai
cs.AI
Resumo
As descobertas científicas estão cada vez mais dependentes de raciocínio multimodal complexo, baseado em dados científicos intensivos em informação e expertise específica de domínio. Potencializados por benchmarks científicos de nível especialista, os Modelos de Linguagem Multimodal Científicos (MLLMs) têm o potencial de aprimorar significativamente esse processo de descoberta em fluxos de trabalho realistas. No entanto, os benchmarks científicos atuais concentram-se principalmente em avaliar as capacidades de compreensão de conhecimento dos MLLMs, resultando em uma avaliação inadequada de suas habilidades de percepção e raciocínio. Para abordar essa lacuna, apresentamos o benchmark Scientists' First Exam (SFE), projetado para avaliar as capacidades cognitivas científicas dos MLLMs por meio de três níveis interconectados: percepção de sinais científicos, compreensão de atributos científicos e raciocínio comparativo científico. Especificamente, o SFE compreende 830 pares de perguntas e respostas (VQA) verificados por especialistas, abrangendo três tipos de questões e 66 tarefas multimodais em cinco disciplinas de alto valor. Experimentos extensivos revelam que os modelos state-of-the-art atuais, GPT-3 e InternVL-3, atingem apenas 34,08% e 26,52% no SFE, destacando um espaço significativo para melhoria dos MLLMs em domínios científicos. Esperamos que os insights obtidos no SFE facilitem avanços adicionais em descobertas científicas aprimoradas por IA.
English
Scientific discoveries increasingly rely on complex multimodal reasoning
based on information-intensive scientific data and domain-specific expertise.
Empowered by expert-level scientific benchmarks, scientific Multimodal Large
Language Models (MLLMs) hold the potential to significantly enhance this
discovery process in realistic workflows. However, current scientific
benchmarks mostly focus on evaluating the knowledge understanding capabilities
of MLLMs, leading to an inadequate assessment of their perception and reasoning
abilities. To address this gap, we present the Scientists' First Exam (SFE)
benchmark, designed to evaluate the scientific cognitive capacities of MLLMs
through three interconnected levels: scientific signal perception, scientific
attribute understanding, scientific comparative reasoning. Specifically, SFE
comprises 830 expert-verified VQA pairs across three question types, spanning
66 multimodal tasks across five high-value disciplines. Extensive experiments
reveal that current state-of-the-art GPT-o3 and InternVL-3 achieve only 34.08%
and 26.52% on SFE, highlighting significant room for MLLMs to improve in
scientific realms. We hope the insights obtained in SFE will facilitate further
developments in AI-enhanced scientific discoveries.