거시에서 미시로: 시각-언어 모델의 분자 수준 미시 공간 지능 벤치마킹
From Macro to Micro: Benchmarking Microscopic Spatial Intelligence on Molecules via Vision-Language Models
December 11, 2025
저자: Zongzhao Li, Xiangzhe Kong, Jiahui Su, Zongyang Ma, Mingze Li, Songyou Li, Yuelin Zhang, Yu Rong, Tingyang Xu, Deli Zhao, Wenbing Huang
cs.AI
초록
본 논문은 과학적 발견의 기초가 되는 보이지 않는 미시적 개체들의 공간 관계를 인지하고 추론하는 능력인 미시적 공간 지능(Microscopic Spatial Intelligence, MiSI) 개념을 소개한다. 이 영역에서 비전-언어 모델(Vision-Language Models, VLMs)의 잠재력을 평가하기 위해 체계적인 벤치마크 프레임워크인 MiSI-Bench를 제안한다. 이 프레임워크는 약 4,000개의 분자 구조에서 도출된 587,000개의 이미지와 163,000개 이상의 질문-답변 쌍으로 구성되며, 기본적인 공간 변환부터 복잡한 관계 식별에 이르는 능력을 평가하는 9개의 상호 보완적인 작업을 포함한다. 실험 결과에 따르면, 현재 최첨단 VLM들은 이 벤치마크에서 인간 수준에 크게 미치지 못하는 성능을 보인다. 그러나 미세 조정된 7B 모델은 상당한 잠재력을 보여주며, 공간 변환 작업에서는 인간을 능가하기도 한다. 반면, 수소 결합 인식과 같은 과학적 근거가 필요한 작업에서의 낮은 성능은 과학적 인공 일반 지능(AGI)을 향한 진전을 위해 명시적인 도메인 지식 통합의 필요성을 강조한다. 데이터셋은 https://huggingface.co/datasets/zongzhao/MiSI-bench에서 이용 가능하다.
English
This paper introduces the concept of Microscopic Spatial Intelligence (MiSI), the capability to perceive and reason about the spatial relationships of invisible microscopic entities, which is fundamental to scientific discovery. To assess the potential of Vision-Language Models (VLMs) in this domain, we propose a systematic benchmark framework MiSI-Bench. This framework features over 163,000 question-answer pairs and 587,000 images derived from approximately 4,000 molecular structures, covering nine complementary tasks that evaluate abilities ranging from elementary spatial transformations to complex relational identifications. Experimental results reveal that current state-of-the-art VLMs perform significantly below human level on this benchmark. However, a fine-tuned 7B model demonstrates substantial potential, even surpassing humans in spatial transformation tasks, while its poor performance in scientifically-grounded tasks like hydrogen bond recognition underscores the necessity of integrating explicit domain knowledge for progress toward scientific AGI. The datasets are available at https://huggingface.co/datasets/zongzhao/MiSI-bench.