ChatPaper.aiChatPaper

MatTools: Avaliação de Modelos de Linguagem de Grande Escala para Ferramentas de Ciência dos Materiais

MatTools: Benchmarking Large Language Models for Materials Science Tools

May 16, 2025
Autores: Siyu Liu, Jiamin Xu, Beilin Ye, Bo Hu, David J. Srolovitz, Tongqi Wen
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais aplicados a questões de ciência dos materiais, incluindo compreensão de literatura, previsão de propriedades, descoberta de materiais e design de ligas. Ao mesmo tempo, uma ampla gama de abordagens computacionais baseadas em física foi desenvolvida, nas quais as propriedades dos materiais podem ser calculadas. Aqui, propomos uma aplicação de benchmark para avaliar a proficiência dos LLMs em responder a questões de ciência dos materiais por meio da geração e execução segura de códigos baseados em pacotes computacionais de ciência dos materiais fundamentados em física. O MatTools é construído sobre dois componentes complementares: um benchmark de perguntas e respostas (QA) para ferramentas de simulação de materiais e um benchmark de uso de ferramentas do mundo real. Projetamos uma metodologia automatizada para coletar de forma eficiente exemplos de uso de ferramentas de ciência dos materiais do mundo real. O benchmark QA, derivado da base de código e documentação do pymatgen (Python Materials Genomics), compreende 69.225 pares de perguntas e respostas que avaliam a capacidade de um LLM de entender ferramentas de ciência dos materiais. O benchmark do mundo real contém 49 tarefas (138 subtarefas) que exigem a geração de código Python funcional para cálculos de propriedades de materiais. Nossa avaliação de diversos LLMs resulta em três insights principais: (1) Generalistas superam especialistas; (2) IA conhece IA; e (3) Simples é melhor. O MatTools fornece um framework padronizado para avaliar e melhorar as capacidades dos LLMs para aplicações de ferramentas de ciência dos materiais, facilitando o desenvolvimento de sistemas de IA mais eficazes para ciência dos materiais e pesquisa científica em geral.
English
Large language models (LLMs) are increasingly applied to materials science questions, including literature comprehension, property prediction, materials discovery and alloy design. At the same time, a wide range of physics-based computational approaches have been developed in which materials properties can be calculated. Here, we propose a benchmark application to evaluate the proficiency of LLMs to answer materials science questions through the generation and safe execution of codes based on such physics-based computational materials science packages. MatTools is built on two complementary components: a materials simulation tool question-answer (QA) benchmark and a real-world tool-usage benchmark. We designed an automated methodology to efficiently collect real-world materials science tool-use examples. The QA benchmark, derived from the pymatgen (Python Materials Genomics) codebase and documentation, comprises 69,225 QA pairs that assess the ability of an LLM to understand materials science tools. The real-world benchmark contains 49 tasks (138 subtasks) requiring the generation of functional Python code for materials property calculations. Our evaluation of diverse LLMs yields three key insights: (1)Generalists outshine specialists;(2)AI knows AI; and (3)Simpler is better. MatTools provides a standardized framework for assessing and improving LLM capabilities for materials science tool applications, facilitating the development of more effective AI systems for materials science and general scientific research.
PDF72May 19, 2025