MatTools: Benchmarking van grote taalmodellen voor tools in de materiaalkunde
MatTools: Benchmarking Large Language Models for Materials Science Tools
May 16, 2025
Auteurs: Siyu Liu, Jiamin Xu, Beilin Ye, Bo Hu, David J. Srolovitz, Tongqi Wen
cs.AI
Samenvatting
Grote taalmodellen (LLM's) worden steeds vaker toegepast op vragen binnen de materiaalkunde, waaronder literatuurinterpretatie, eigenschapsvoorspelling, materiaalontdekking en legeringsontwerp. Tegelijkertijd is er een breed scala aan fysica-gebaseerde computationele benaderingen ontwikkeld waarmee materiaaleigenschappen kunnen worden berekend. Hier stellen we een benchmarktoepassing voor om de vaardigheid van LLM's te evalueren bij het beantwoorden van materiaalkundevragen door het genereren en veilig uitvoeren van codes gebaseerd op dergelijke fysica-gebaseerde computationele materiaalkundepakketten. MatTools is gebouwd op twee complementaire componenten: een benchmark voor vraag-antwoord (QA) over materiaalsimulatietools en een benchmark voor het gebruik van tools in de praktijk. We hebben een geautomatiseerde methodologie ontworpen om efficiënt voorbeelden van het gebruik van materiaalkundetools in de praktijk te verzamelen. De QA-benchmark, afgeleid van de pymatgen (Python Materials Genomics) codebase en documentatie, omvat 69.225 QA-paren die het vermogen van een LLM om materiaalkundetools te begrijpen beoordelen. De benchmark voor de praktijk bevat 49 taken (138 subtaken) die het genereren van functionele Python-code vereisen voor het berekenen van materiaaleigenschappen. Onze evaluatie van diverse LLM's levert drie belangrijke inzichten op: (1) Generalisten overtreffen specialisten; (2) AI kent AI; en (3) Eenvoudiger is beter. MatTools biedt een gestandaardiseerd raamwerk voor het beoordelen en verbeteren van de mogelijkheden van LLM's voor toepassingen van materiaalkundetools, wat de ontwikkeling van effectievere AI-systemen voor materiaalkunde en algemeen wetenschappelijk onderzoek vergemakkelijkt.
English
Large language models (LLMs) are increasingly applied to materials science
questions, including literature comprehension, property prediction, materials
discovery and alloy design. At the same time, a wide range of physics-based
computational approaches have been developed in which materials properties can
be calculated. Here, we propose a benchmark application to evaluate the
proficiency of LLMs to answer materials science questions through the
generation and safe execution of codes based on such physics-based
computational materials science packages. MatTools is built on two
complementary components: a materials simulation tool question-answer (QA)
benchmark and a real-world tool-usage benchmark. We designed an automated
methodology to efficiently collect real-world materials science tool-use
examples. The QA benchmark, derived from the pymatgen (Python Materials
Genomics) codebase and documentation, comprises 69,225 QA pairs that assess the
ability of an LLM to understand materials science tools. The real-world
benchmark contains 49 tasks (138 subtasks) requiring the generation of
functional Python code for materials property calculations. Our evaluation of
diverse LLMs yields three key insights: (1)Generalists outshine
specialists;(2)AI knows AI; and (3)Simpler is better. MatTools provides a
standardized framework for assessing and improving LLM capabilities for
materials science tool applications, facilitating the development of more
effective AI systems for materials science and general scientific research.Summary
AI-Generated Summary