ChatPaper.aiChatPaper

MatTools: Оценка больших языковых моделей для инструментов материаловедения

MatTools: Benchmarking Large Language Models for Materials Science Tools

May 16, 2025
Авторы: Siyu Liu, Jiamin Xu, Beilin Ye, Bo Hu, David J. Srolovitz, Tongqi Wen
cs.AI

Аннотация

Крупные языковые модели (LLM) всё чаще применяются для решения задач в материаловедении, включая анализ научной литературы, прогнозирование свойств, открытие новых материалов и проектирование сплавов. Одновременно разработан широкий спектр вычислительных подходов, основанных на физических принципах, которые позволяют рассчитывать свойства материалов. В данной работе мы предлагаем эталонное приложение для оценки способности LLM отвечать на вопросы по материаловедению посредством генерации и безопасного выполнения кода на основе таких вычислительных пакетов для материаловедения, основанных на физических принципах. MatTools построен на двух взаимодополняющих компонентах: эталонном тесте вопросов и ответов (QA) для инструментов моделирования материалов и эталонном тесте реального использования инструментов. Мы разработали автоматизированную методику для эффективного сбора примеров реального использования инструментов в материаловедении. Эталонный тест QA, созданный на основе кодовой базы и документации pymatgen (Python Materials Genomics), включает 69 225 пар вопросов и ответов, которые оценивают способность LLM понимать инструменты материаловедения. Эталонный тест реального использования содержит 49 задач (138 подзадач), требующих генерации функционального Python-кода для расчёта свойств материалов. Наша оценка различных LLM выявила три ключевых вывода: (1) Универсальные модели превосходят специализированные; (2) ИИ понимает ИИ; (3) Простота лучше. MatTools предоставляет стандартизированную структуру для оценки и улучшения возможностей LLM в применении инструментов материаловедения, способствуя разработке более эффективных систем ИИ для материаловедения и научных исследований в целом.
English
Large language models (LLMs) are increasingly applied to materials science questions, including literature comprehension, property prediction, materials discovery and alloy design. At the same time, a wide range of physics-based computational approaches have been developed in which materials properties can be calculated. Here, we propose a benchmark application to evaluate the proficiency of LLMs to answer materials science questions through the generation and safe execution of codes based on such physics-based computational materials science packages. MatTools is built on two complementary components: a materials simulation tool question-answer (QA) benchmark and a real-world tool-usage benchmark. We designed an automated methodology to efficiently collect real-world materials science tool-use examples. The QA benchmark, derived from the pymatgen (Python Materials Genomics) codebase and documentation, comprises 69,225 QA pairs that assess the ability of an LLM to understand materials science tools. The real-world benchmark contains 49 tasks (138 subtasks) requiring the generation of functional Python code for materials property calculations. Our evaluation of diverse LLMs yields three key insights: (1)Generalists outshine specialists;(2)AI knows AI; and (3)Simpler is better. MatTools provides a standardized framework for assessing and improving LLM capabilities for materials science tool applications, facilitating the development of more effective AI systems for materials science and general scientific research.

Summary

AI-Generated Summary

PDF52May 19, 2025