ChatPaper.aiChatPaper

과학자들의 첫 번째 시험: MLLM의 인지 능력 탐구 - 지각, 이해, 추론을 중심으로

Scientists' First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning

June 12, 2025
저자: Yuhao Zhou, Yiheng Wang, Xuming He, Ruoyao Xiao, Zhiwei Li, Qiantai Feng, Zijie Guo, Yuejin Yang, Hao Wu, Wenxuan Huang, Jiaqi Wei, Dan Si, Xiuqi Yao, Jia Bu, Haiwen Huang, Tianfan Fu, Shixiang Tang, Ben Fei, Dongzhan Zhou, Fenghua Ling, Yan Lu, Siqi Sun, Chenhui Li, Guanjie Zheng, Jiancheng Lv, Wenlong Zhang, Lei Bai
cs.AI

초록

과학적 발견은 점점 더 정보 집약적인 과학 데이터와 도메인 특화 전문 지식을 기반으로 한 복잡한 다중 모드 추론에 의존하고 있습니다. 전문가 수준의 과학 벤치마크를 통해 강화된 과학적 다중 모드 대형 언어 모델(MLLMs)은 이러한 발견 과정을 현실적인 워크플로에서 크게 향상시킬 잠재력을 가지고 있습니다. 그러나 현재의 과학 벤치마크는 주로 MLLMs의 지식 이해 능력을 평가하는 데 초점을 맞추고 있어, 이들의 인지 및 추론 능력을 충분히 평가하지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 과학적 인지 능력을 세 가지 상호 연결된 수준(과학적 신호 인지, 과학적 속성 이해, 과학적 비교 추론)을 통해 평가하는 '과학자 첫 시험(SFE)' 벤치마크를 제안합니다. 구체적으로, SFE는 5개의 고부가가치 학문 분야에 걸친 66개의 다중 모드 작업을 포함하는 830개의 전문가 검증 VQA 쌍으로 구성됩니다. 광범위한 실험 결과, 현재 최첨단 GPT-3와 InternVL-3는 SFE에서 각각 34.08%와 26.52%의 성적을 기록하며, 과학적 영역에서 MLLMs의 개선이 필요함을 보여줍니다. 우리는 SFE에서 얻은 통찰이 AI 강화 과학 발견의 추가 발전을 촉진하기를 바랍니다.
English
Scientific discoveries increasingly rely on complex multimodal reasoning based on information-intensive scientific data and domain-specific expertise. Empowered by expert-level scientific benchmarks, scientific Multimodal Large Language Models (MLLMs) hold the potential to significantly enhance this discovery process in realistic workflows. However, current scientific benchmarks mostly focus on evaluating the knowledge understanding capabilities of MLLMs, leading to an inadequate assessment of their perception and reasoning abilities. To address this gap, we present the Scientists' First Exam (SFE) benchmark, designed to evaluate the scientific cognitive capacities of MLLMs through three interconnected levels: scientific signal perception, scientific attribute understanding, scientific comparative reasoning. Specifically, SFE comprises 830 expert-verified VQA pairs across three question types, spanning 66 multimodal tasks across five high-value disciplines. Extensive experiments reveal that current state-of-the-art GPT-o3 and InternVL-3 achieve only 34.08% and 26.52% on SFE, highlighting significant room for MLLMs to improve in scientific realms. We hope the insights obtained in SFE will facilitate further developments in AI-enhanced scientific discoveries.
PDF634June 17, 2025