MatTools: Benchmarking von großen Sprachmodellen für Werkzeuge in der Materialwissenschaft
MatTools: Benchmarking Large Language Models for Materials Science Tools
May 16, 2025
Autoren: Siyu Liu, Jiamin Xu, Beilin Ye, Bo Hu, David J. Srolovitz, Tongqi Wen
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) werden zunehmend auf Fragestellungen der Materialwissenschaft angewendet, einschließlich Literaturverständnis, Eigenschaftsvorhersage, Materialentdeckung und Legierungsdesign. Gleichzeitig wurde eine Vielzahl physikbasierter Berechnungsansätze entwickelt, mit denen Materialeigenschaften berechnet werden können. Hier schlagen wir eine Benchmark-Anwendung vor, um die Fähigkeit von LLMs zu bewerten, Materialwissenschaftsfragen durch die Generierung und sichere Ausführung von Codes basierend auf solchen physikbasierten Materialwissenschaftspaketen zu beantworten. MatTools basiert auf zwei komplementären Komponenten: einem Frage-Antwort (QA)-Benchmark für Materialsimulationstools und einem Benchmark für die reale Anwendung von Tools. Wir haben eine automatisierte Methode entwickelt, um effizient Beispiele für die reale Nutzung von Materialwissenschaftstools zu sammeln. Der QA-Benchmark, abgeleitet aus der pymatgen (Python Materials Genomics)-Codebasis und Dokumentation, umfasst 69.225 QA-Paare, die die Fähigkeit eines LLMs bewerten, Materialwissenschaftstools zu verstehen. Der reale Benchmark enthält 49 Aufgaben (138 Unteraufgaben), die die Generierung von funktionalem Python-Code für die Berechnung von Materialeigenschaften erfordern. Unsere Bewertung verschiedener LLMs liefert drei zentrale Erkenntnisse: (1) Generalisten übertreffen Spezialisten; (2) KI versteht KI; und (3) Einfacher ist besser. MatTools bietet einen standardisierten Rahmen zur Bewertung und Verbesserung der Fähigkeiten von LLMs für Anwendungen von Materialwissenschaftstools und erleichtert die Entwicklung effektiverer KI-Systeme für die Materialwissenschaft und allgemeine wissenschaftliche Forschung.
English
Large language models (LLMs) are increasingly applied to materials science
questions, including literature comprehension, property prediction, materials
discovery and alloy design. At the same time, a wide range of physics-based
computational approaches have been developed in which materials properties can
be calculated. Here, we propose a benchmark application to evaluate the
proficiency of LLMs to answer materials science questions through the
generation and safe execution of codes based on such physics-based
computational materials science packages. MatTools is built on two
complementary components: a materials simulation tool question-answer (QA)
benchmark and a real-world tool-usage benchmark. We designed an automated
methodology to efficiently collect real-world materials science tool-use
examples. The QA benchmark, derived from the pymatgen (Python Materials
Genomics) codebase and documentation, comprises 69,225 QA pairs that assess the
ability of an LLM to understand materials science tools. The real-world
benchmark contains 49 tasks (138 subtasks) requiring the generation of
functional Python code for materials property calculations. Our evaluation of
diverse LLMs yields three key insights: (1)Generalists outshine
specialists;(2)AI knows AI; and (3)Simpler is better. MatTools provides a
standardized framework for assessing and improving LLM capabilities for
materials science tool applications, facilitating the development of more
effective AI systems for materials science and general scientific research.Summary
AI-Generated Summary