MatTools: Оценка больших языковых моделей для инструментов материаловедения
MatTools: Benchmarking Large Language Models for Materials Science Tools
May 16, 2025
Авторы: Siyu Liu, Jiamin Xu, Beilin Ye, Bo Hu, David J. Srolovitz, Tongqi Wen
cs.AI
Аннотация
Крупные языковые модели (LLM) всё чаще применяются для решения задач в материаловедении, включая анализ научной литературы, прогнозирование свойств, открытие новых материалов и проектирование сплавов. Одновременно разработан широкий спектр вычислительных подходов, основанных на физических принципах, которые позволяют рассчитывать свойства материалов. В данной работе мы предлагаем эталонное приложение для оценки способности LLM отвечать на вопросы по материаловедению посредством генерации и безопасного выполнения кода на основе таких вычислительных пакетов для материаловедения, основанных на физических принципах. MatTools построен на двух взаимодополняющих компонентах: эталонном тесте вопросов и ответов (QA) для инструментов моделирования материалов и эталонном тесте реального использования инструментов. Мы разработали автоматизированную методику для эффективного сбора примеров реального использования инструментов в материаловедении. Эталонный тест QA, созданный на основе кодовой базы и документации pymatgen (Python Materials Genomics), включает 69 225 пар вопросов и ответов, которые оценивают способность LLM понимать инструменты материаловедения. Эталонный тест реального использования содержит 49 задач (138 подзадач), требующих генерации функционального Python-кода для расчёта свойств материалов. Наша оценка различных LLM выявила три ключевых вывода: (1) Универсальные модели превосходят специализированные; (2) ИИ понимает ИИ; (3) Простота лучше. MatTools предоставляет стандартизированную структуру для оценки и улучшения возможностей LLM в применении инструментов материаловедения, способствуя разработке более эффективных систем ИИ для материаловедения и научных исследований в целом.
English
Large language models (LLMs) are increasingly applied to materials science
questions, including literature comprehension, property prediction, materials
discovery and alloy design. At the same time, a wide range of physics-based
computational approaches have been developed in which materials properties can
be calculated. Here, we propose a benchmark application to evaluate the
proficiency of LLMs to answer materials science questions through the
generation and safe execution of codes based on such physics-based
computational materials science packages. MatTools is built on two
complementary components: a materials simulation tool question-answer (QA)
benchmark and a real-world tool-usage benchmark. We designed an automated
methodology to efficiently collect real-world materials science tool-use
examples. The QA benchmark, derived from the pymatgen (Python Materials
Genomics) codebase and documentation, comprises 69,225 QA pairs that assess the
ability of an LLM to understand materials science tools. The real-world
benchmark contains 49 tasks (138 subtasks) requiring the generation of
functional Python code for materials property calculations. Our evaluation of
diverse LLMs yields three key insights: (1)Generalists outshine
specialists;(2)AI knows AI; and (3)Simpler is better. MatTools provides a
standardized framework for assessing and improving LLM capabilities for
materials science tool applications, facilitating the development of more
effective AI systems for materials science and general scientific research.Summary
AI-Generated Summary