MatTools: Benchmarking van grote taalmodellen voor tools in de materiaalkunde

Samenvatting

Grote taalmodellen (LLM's) worden steeds vaker toegepast op vragen binnen de materiaalkunde, waaronder literatuurinterpretatie, eigenschapsvoorspelling, materiaalontdekking en legeringsontwerp. Tegelijkertijd is er een breed scala aan fysica-gebaseerde computationele benaderingen ontwikkeld waarmee materiaaleigenschappen kunnen worden berekend. Hier stellen we een benchmarktoepassing voor om de vaardigheid van LLM's te evalueren bij het beantwoorden van materiaalkundevragen door het genereren en veilig uitvoeren van codes gebaseerd op dergelijke fysica-gebaseerde computationele materiaalkundepakketten. MatTools is gebouwd op twee complementaire componenten: een benchmark voor vraag-antwoord (QA) over materiaalsimulatietools en een benchmark voor het gebruik van tools in de praktijk. We hebben een geautomatiseerde methodologie ontworpen om efficiënt voorbeelden van het gebruik van materiaalkundetools in de praktijk te verzamelen. De QA-benchmark, afgeleid van de pymatgen (Python Materials Genomics) codebase en documentatie, omvat 69.225 QA-paren die het vermogen van een LLM om materiaalkundetools te begrijpen beoordelen. De benchmark voor de praktijk bevat 49 taken (138 subtaken) die het genereren van functionele Python-code vereisen voor het berekenen van materiaaleigenschappen. Onze evaluatie van diverse LLM's levert drie belangrijke inzichten op: (1) Generalisten overtreffen specialisten; (2) AI kent AI; en (3) Eenvoudiger is beter. MatTools biedt een gestandaardiseerd raamwerk voor het beoordelen en verbeteren van de mogelijkheden van LLM's voor toepassingen van materiaalkundetools, wat de ontwikkeling van effectievere AI-systemen voor materiaalkunde en algemeen wetenschappelijk onderzoek vergemakkelijkt.

English

Large language models (LLMs) are increasingly applied to materials science questions, including literature comprehension, property prediction, materials discovery and alloy design. At the same time, a wide range of physics-based computational approaches have been developed in which materials properties can be calculated. Here, we propose a benchmark application to evaluate the proficiency of LLMs to answer materials science questions through the generation and safe execution of codes based on such physics-based computational materials science packages. MatTools is built on two complementary components: a materials simulation tool question-answer (QA) benchmark and a real-world tool-usage benchmark. We designed an automated methodology to efficiently collect real-world materials science tool-use examples. The QA benchmark, derived from the pymatgen (Python Materials Genomics) codebase and documentation, comprises 69,225 QA pairs that assess the ability of an LLM to understand materials science tools. The real-world benchmark contains 49 tasks (138 subtasks) requiring the generation of functional Python code for materials property calculations. Our evaluation of diverse LLMs yields three key insights: (1)Generalists outshine specialists;(2)AI knows AI; and (3)Simpler is better. MatTools provides a standardized framework for assessing and improving LLM capabilities for materials science tool applications, facilitating the development of more effective AI systems for materials science and general scientific research.

MatTools: Benchmarking van grote taalmodellen voor tools in de materiaalkunde

MatTools: Benchmarking Large Language Models for Materials Science Tools

Samenvatting

Summary

Support

Support