MatTools: Benchmarking von großen Sprachmodellen für Werkzeuge in der Materialwissenschaft

papers.abstract

Große Sprachmodelle (LLMs) werden zunehmend auf Fragestellungen der Materialwissenschaft angewendet, einschließlich Literaturverständnis, Eigenschaftsvorhersage, Materialentdeckung und Legierungsdesign. Gleichzeitig wurde eine Vielzahl physikbasierter Berechnungsansätze entwickelt, mit denen Materialeigenschaften berechnet werden können. Hier schlagen wir eine Benchmark-Anwendung vor, um die Fähigkeit von LLMs zu bewerten, Materialwissenschaftsfragen durch die Generierung und sichere Ausführung von Codes basierend auf solchen physikbasierten Materialwissenschaftspaketen zu beantworten. MatTools basiert auf zwei komplementären Komponenten: einem Frage-Antwort (QA)-Benchmark für Materialsimulationstools und einem Benchmark für die reale Anwendung von Tools. Wir haben eine automatisierte Methode entwickelt, um effizient Beispiele für die reale Nutzung von Materialwissenschaftstools zu sammeln. Der QA-Benchmark, abgeleitet aus der pymatgen (Python Materials Genomics)-Codebasis und Dokumentation, umfasst 69.225 QA-Paare, die die Fähigkeit eines LLMs bewerten, Materialwissenschaftstools zu verstehen. Der reale Benchmark enthält 49 Aufgaben (138 Unteraufgaben), die die Generierung von funktionalem Python-Code für die Berechnung von Materialeigenschaften erfordern. Unsere Bewertung verschiedener LLMs liefert drei zentrale Erkenntnisse: (1) Generalisten übertreffen Spezialisten; (2) KI versteht KI; und (3) Einfacher ist besser. MatTools bietet einen standardisierten Rahmen zur Bewertung und Verbesserung der Fähigkeiten von LLMs für Anwendungen von Materialwissenschaftstools und erleichtert die Entwicklung effektiverer KI-Systeme für die Materialwissenschaft und allgemeine wissenschaftliche Forschung.

English

Large language models (LLMs) are increasingly applied to materials science questions, including literature comprehension, property prediction, materials discovery and alloy design. At the same time, a wide range of physics-based computational approaches have been developed in which materials properties can be calculated. Here, we propose a benchmark application to evaluate the proficiency of LLMs to answer materials science questions through the generation and safe execution of codes based on such physics-based computational materials science packages. MatTools is built on two complementary components: a materials simulation tool question-answer (QA) benchmark and a real-world tool-usage benchmark. We designed an automated methodology to efficiently collect real-world materials science tool-use examples. The QA benchmark, derived from the pymatgen (Python Materials Genomics) codebase and documentation, comprises 69,225 QA pairs that assess the ability of an LLM to understand materials science tools. The real-world benchmark contains 49 tasks (138 subtasks) requiring the generation of functional Python code for materials property calculations. Our evaluation of diverse LLMs yields three key insights: (1)Generalists outshine specialists;(2)AI knows AI; and (3)Simpler is better. MatTools provides a standardized framework for assessing and improving LLM capabilities for materials science tool applications, facilitating the development of more effective AI systems for materials science and general scientific research.

MatTools: Benchmarking von großen Sprachmodellen für Werkzeuge in der Materialwissenschaft

MatTools: Benchmarking Large Language Models for Materials Science Tools

papers.abstract

Support