MatTools: 재료과학 도구를 위한 대규모 언어 모델 벤치마킹
MatTools: Benchmarking Large Language Models for Materials Science Tools
May 16, 2025
저자: Siyu Liu, Jiamin Xu, Beilin Ye, Bo Hu, David J. Srolovitz, Tongqi Wen
cs.AI
초록
대형 언어 모델(LLMs)은 문헌 이해, 특성 예측, 신소재 발견 및 합금 설계를 포함한 재료 과학 문제에 점점 더 많이 적용되고 있다. 동시에, 재료 특성을 계산할 수 있는 다양한 물리 기반 계산 접근법이 개발되었다. 본 연구에서는 이러한 물리 기반 계산 재료 과학 패키지를 기반으로 코드를 생성하고 안전하게 실행함으로써 재료 과학 질문에 답변하는 LLMs의 숙련도를 평가하기 위한 벤치마크 애플리케이션을 제안한다. MatTools는 두 가지 상호 보완적인 구성 요소로 구성된다: 재료 시뮬레이션 도구 질문-답변(QA) 벤치마크와 실제 도구 사용 벤치마크. 우리는 실제 재료 과학 도구 사용 예제를 효율적으로 수집하기 위한 자동화된 방법론을 설계했다. pymatgen(Python Materials Genomics) 코드베이스와 문서에서 파생된 QA 벤치마크는 LLM이 재료 과학 도구를 이해하는 능력을 평가하는 69,225개의 QA 쌍으로 구성된다. 실제 벤치마크는 재료 특성 계산을 위한 기능적 Python 코드 생성을 요구하는 49개의 작업(138개의 하위 작업)을 포함한다. 다양한 LLMs에 대한 평가를 통해 세 가지 주요 통찰을 얻었다: (1) 일반주의자가 전문가를 능가한다; (2) AI는 AI를 알고 있다; (3) 단순함이 더 낫다. MatTools는 재료 과학 도구 애플리케이션을 위한 LLM 능력을 평가하고 개선하기 위한 표준화된 프레임워크를 제공하여, 재료 과학 및 일반 과학 연구를 위한 보다 효과적인 AI 시스템 개발을 촉진한다.
English
Large language models (LLMs) are increasingly applied to materials science
questions, including literature comprehension, property prediction, materials
discovery and alloy design. At the same time, a wide range of physics-based
computational approaches have been developed in which materials properties can
be calculated. Here, we propose a benchmark application to evaluate the
proficiency of LLMs to answer materials science questions through the
generation and safe execution of codes based on such physics-based
computational materials science packages. MatTools is built on two
complementary components: a materials simulation tool question-answer (QA)
benchmark and a real-world tool-usage benchmark. We designed an automated
methodology to efficiently collect real-world materials science tool-use
examples. The QA benchmark, derived from the pymatgen (Python Materials
Genomics) codebase and documentation, comprises 69,225 QA pairs that assess the
ability of an LLM to understand materials science tools. The real-world
benchmark contains 49 tasks (138 subtasks) requiring the generation of
functional Python code for materials property calculations. Our evaluation of
diverse LLMs yields three key insights: (1)Generalists outshine
specialists;(2)AI knows AI; and (3)Simpler is better. MatTools provides a
standardized framework for assessing and improving LLM capabilities for
materials science tool applications, facilitating the development of more
effective AI systems for materials science and general scientific research.Summary
AI-Generated Summary