ChatPaper.aiChatPaper

MatTools: Evaluación de Modelos de Lenguaje de Gran Escala para Herramientas de Ciencia de Materiales

MatTools: Benchmarking Large Language Models for Materials Science Tools

May 16, 2025
Autores: Siyu Liu, Jiamin Xu, Beilin Ye, Bo Hu, David J. Srolovitz, Tongqi Wen
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se están aplicando cada vez más a cuestiones de ciencia de materiales, incluyendo la comprensión de literatura, predicción de propiedades, descubrimiento de materiales y diseño de aleaciones. Al mismo tiempo, se han desarrollado una amplia gama de enfoques computacionales basados en física que permiten calcular las propiedades de los materiales. Aquí, proponemos una aplicación de referencia para evaluar la competencia de los LLMs para responder preguntas de ciencia de materiales mediante la generación y ejecución segura de códigos basados en paquetes computacionales de ciencia de materiales fundamentados en física. MatTools se construye sobre dos componentes complementarios: un benchmark de preguntas y respuestas (QA) para herramientas de simulación de materiales y un benchmark de uso de herramientas en el mundo real. Diseñamos una metodología automatizada para recopilar de manera eficiente ejemplos de uso de herramientas de ciencia de materiales en contextos reales. El benchmark de QA, derivado del código base y la documentación de pymatgen (Python Materials Genomics), comprende 69,225 pares de preguntas y respuestas que evalúan la capacidad de un LLM para comprender herramientas de ciencia de materiales. El benchmark del mundo real contiene 49 tareas (138 subtareas) que requieren la generación de código Python funcional para cálculos de propiedades de materiales. Nuestra evaluación de diversos LLMs arroja tres conclusiones clave: (1) Los generalistas superan a los especialistas; (2) La IA conoce a la IA; y (3) Lo más simple es mejor. MatTools proporciona un marco estandarizado para evaluar y mejorar las capacidades de los LLMs en aplicaciones de herramientas de ciencia de materiales, facilitando el desarrollo de sistemas de IA más efectivos para la ciencia de materiales y la investigación científica en general.
English
Large language models (LLMs) are increasingly applied to materials science questions, including literature comprehension, property prediction, materials discovery and alloy design. At the same time, a wide range of physics-based computational approaches have been developed in which materials properties can be calculated. Here, we propose a benchmark application to evaluate the proficiency of LLMs to answer materials science questions through the generation and safe execution of codes based on such physics-based computational materials science packages. MatTools is built on two complementary components: a materials simulation tool question-answer (QA) benchmark and a real-world tool-usage benchmark. We designed an automated methodology to efficiently collect real-world materials science tool-use examples. The QA benchmark, derived from the pymatgen (Python Materials Genomics) codebase and documentation, comprises 69,225 QA pairs that assess the ability of an LLM to understand materials science tools. The real-world benchmark contains 49 tasks (138 subtasks) requiring the generation of functional Python code for materials property calculations. Our evaluation of diverse LLMs yields three key insights: (1)Generalists outshine specialists;(2)AI knows AI; and (3)Simpler is better. MatTools provides a standardized framework for assessing and improving LLM capabilities for materials science tool applications, facilitating the development of more effective AI systems for materials science and general scientific research.

Summary

AI-Generated Summary

PDF52May 19, 2025