ChatPaper.aiChatPaper

MatTools: Valutazione di Modelli Linguistici di Grandi Dimensioni per Strumenti di Scienza dei Materiali

MatTools: Benchmarking Large Language Models for Materials Science Tools

May 16, 2025
Autori: Siyu Liu, Jiamin Xu, Beilin Ye, Bo Hu, David J. Srolovitz, Tongqi Wen
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono sempre più applicati a questioni di scienza dei materiali, tra cui la comprensione della letteratura, la previsione delle proprietà, la scoperta di materiali e la progettazione di leghe. Allo stesso tempo, è stato sviluppato un ampio ventaglio di approcci computazionali basati sulla fisica per calcolare le proprietà dei materiali. Qui proponiamo un'applicazione benchmark per valutare la competenza degli LLM nel rispondere a domande di scienza dei materiali attraverso la generazione e l'esecuzione sicura di codici basati su tali pacchetti computazionali di scienza dei materiali fondati sulla fisica. MatTools è costruito su due componenti complementari: un benchmark di domande e risposte (QA) per strumenti di simulazione dei materiali e un benchmark di utilizzo di strumenti nel mondo reale. Abbiamo progettato una metodologia automatizzata per raccogliere in modo efficiente esempi reali di utilizzo di strumenti di scienza dei materiali. Il benchmark QA, derivato dalla codebase e dalla documentazione di pymatgen (Python Materials Genomics), comprende 69.225 coppie QA che valutano la capacità di un LLM di comprendere gli strumenti di scienza dei materiali. Il benchmark del mondo reale contiene 49 task (138 sottotask) che richiedono la generazione di codice Python funzionale per il calcolo delle proprietà dei materiali. La nostra valutazione di diversi LLM fornisce tre intuizioni chiave: (1) I generalisti superano gli specialisti; (2) L'IA conosce l'IA; e (3) Più semplice è meglio. MatTools offre un framework standardizzato per valutare e migliorare le capacità degli LLM nelle applicazioni di strumenti di scienza dei materiali, facilitando lo sviluppo di sistemi di IA più efficaci per la scienza dei materiali e la ricerca scientifica in generale.
English
Large language models (LLMs) are increasingly applied to materials science questions, including literature comprehension, property prediction, materials discovery and alloy design. At the same time, a wide range of physics-based computational approaches have been developed in which materials properties can be calculated. Here, we propose a benchmark application to evaluate the proficiency of LLMs to answer materials science questions through the generation and safe execution of codes based on such physics-based computational materials science packages. MatTools is built on two complementary components: a materials simulation tool question-answer (QA) benchmark and a real-world tool-usage benchmark. We designed an automated methodology to efficiently collect real-world materials science tool-use examples. The QA benchmark, derived from the pymatgen (Python Materials Genomics) codebase and documentation, comprises 69,225 QA pairs that assess the ability of an LLM to understand materials science tools. The real-world benchmark contains 49 tasks (138 subtasks) requiring the generation of functional Python code for materials property calculations. Our evaluation of diverse LLMs yields three key insights: (1)Generalists outshine specialists;(2)AI knows AI; and (3)Simpler is better. MatTools provides a standardized framework for assessing and improving LLM capabilities for materials science tool applications, facilitating the development of more effective AI systems for materials science and general scientific research.
PDF72May 19, 2025