Что на самом деле могут делать GPT-модели в химии? Всесторонний бенчмарк по восьми задачам
What indeed can GPT models do in chemistry? A comprehensive benchmark on eight tasks
May 27, 2023
Авторы: Taicheng Guo, Kehan Guo, Bozhao nan, Zhengwen Liang, Zhichun Guo, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang
cs.AI
Аннотация
Крупные языковые модели (LLM) с мощными способностями в задачах обработки естественного языка появились и быстро нашли применение в различных областях, таких как наука, финансы и программная инженерия. Однако способность LLM продвигать область химии остается неясной. В данной статье мы создаем всеобъемлющий бенчмарк, содержащий 8 практических задач по химии, включая: 1) предсказание названий, 2) предсказание свойств, 3) предсказание выхода продукта, 4) предсказание реакций, 5) ретросинтез (предсказание реагентов по продуктам), 6) текстовое проектирование молекул, 7) описание молекул и 8) выбор реагентов. Наш анализ основывается на широко известных наборах данных, таких как BBBP, Tox21, PubChem, USPTO и ChEBI, что позволяет провести широкое исследование возможностей LLM в контексте практической химии. Три модели GPT (GPT-4, GPT-3.5 и Davinci-003) оцениваются для каждой химической задачи в условиях обучения с нуля (zero-shot) и с небольшим количеством примеров (few-shot) с тщательно подобранными демонстрационными примерами и специально разработанными промптами. Ключевые результаты нашего исследования следующие: 1) GPT-4 превосходит две другие модели среди трех оцененных; 2) модели GPT показывают менее конкурентоспособные результаты в задачах, требующих точного понимания представления молекул в формате SMILES, таких как предсказание реакций и ретросинтез; 3) модели GPT демонстрируют сильные способности в текстовых задачах, связанных с объяснением, таких как описание молекул; и 4) модели GPT показывают сопоставимую или лучшую производительность по сравнению с классическими моделями машинного обучения при применении к химическим задачам, которые могут быть преобразованы в задачи классификации или ранжирования, такие как предсказание свойств и предсказание выхода продукта.
English
Large Language Models (LLMs) with strong abilities in natural language
processing tasks have emerged and have been rapidly applied in various kinds of
areas such as science, finance and software engineering. However, the
capability of LLMs to advance the field of chemistry remains unclear. In this
paper,we establish a comprehensive benchmark containing 8 practical chemistry
tasks, including 1) name prediction, 2) property prediction, 3) yield
prediction, 4) reaction prediction, 5) retrosynthesis (prediction of reactants
from products), 6)text-based molecule design, 7) molecule captioning, and 8)
reagent selection. Our analysis draws on widely recognized datasets including
BBBP, Tox21, PubChem, USPTO, and ChEBI, facilitating a broad exploration of the
capacities of LLMs within the context of practical chemistry. Three GPT models
(GPT-4, GPT-3.5,and Davinci-003) are evaluated for each chemistry task in
zero-shot and few-shot in-context learning settings with carefully selected
demonstration examples and specially crafted prompts. The key results of our
investigation are 1) GPT-4 outperforms the other two models among the three
evaluated; 2) GPT models exhibit less competitive performance in tasks
demanding precise understanding of molecular SMILES representation, such as
reaction prediction and retrosynthesis;3) GPT models demonstrate strong
capabilities in text-related explanation tasks such as molecule captioning; and
4) GPT models exhibit comparable or better performance to classical machine
learning models when applied to chemical problems that can be transformed into
classification or ranking tasks, such as property prediction, and yield
prediction.