MatTools : Évaluation des modèles de langage de grande envergure pour les outils en science des matériaux
MatTools: Benchmarking Large Language Models for Materials Science Tools
May 16, 2025
Auteurs: Siyu Liu, Jiamin Xu, Beilin Ye, Bo Hu, David J. Srolovitz, Tongqi Wen
cs.AI
Résumé
Les grands modèles de langage (LLM) sont de plus en plus appliqués aux questions de science des matériaux, notamment la compréhension de la littérature, la prédiction des propriétés, la découverte de matériaux et la conception d'alliages. Parallèlement, une large gamme d'approches computationnelles basées sur la physique a été développée pour calculer les propriétés des matériaux. Nous proposons ici une application de référence pour évaluer la capacité des LLM à répondre à des questions de science des matériaux grâce à la génération et à l'exécution sécurisée de codes basés sur ces packages computationnels de science des matériaux. MatTools repose sur deux composantes complémentaires : un benchmark de questions-réponses (QA) pour les outils de simulation des matériaux et un benchmark d'utilisation d'outils en conditions réelles. Nous avons conçu une méthodologie automatisée pour collecter efficacement des exemples d'utilisation réelle d'outils en science des matériaux. Le benchmark QA, dérivé de la base de code et de la documentation de pymatgen (Python Materials Genomics), comprend 69 225 paires QA qui évaluent la capacité d'un LLM à comprendre les outils de science des matériaux. Le benchmark en conditions réelles contient 49 tâches (138 sous-tâches) nécessitant la génération de code Python fonctionnel pour le calcul des propriétés des matériaux. Notre évaluation de divers LLM révèle trois insights clés : (1) Les généralistes surpassent les spécialistes ; (2) L'IA connaît l'IA ; et (3) Plus simple est mieux. MatTools fournit un cadre standardisé pour évaluer et améliorer les capacités des LLM pour les applications d'outils en science des matériaux, facilitant le développement de systèmes d'IA plus efficaces pour la science des matériaux et la recherche scientifique en général.
English
Large language models (LLMs) are increasingly applied to materials science
questions, including literature comprehension, property prediction, materials
discovery and alloy design. At the same time, a wide range of physics-based
computational approaches have been developed in which materials properties can
be calculated. Here, we propose a benchmark application to evaluate the
proficiency of LLMs to answer materials science questions through the
generation and safe execution of codes based on such physics-based
computational materials science packages. MatTools is built on two
complementary components: a materials simulation tool question-answer (QA)
benchmark and a real-world tool-usage benchmark. We designed an automated
methodology to efficiently collect real-world materials science tool-use
examples. The QA benchmark, derived from the pymatgen (Python Materials
Genomics) codebase and documentation, comprises 69,225 QA pairs that assess the
ability of an LLM to understand materials science tools. The real-world
benchmark contains 49 tasks (138 subtasks) requiring the generation of
functional Python code for materials property calculations. Our evaluation of
diverse LLMs yields three key insights: (1)Generalists outshine
specialists;(2)AI knows AI; and (3)Simpler is better. MatTools provides a
standardized framework for assessing and improving LLM capabilities for
materials science tool applications, facilitating the development of more
effective AI systems for materials science and general scientific research.Summary
AI-Generated Summary