O que os modelos GPT podem realmente fazer em química? Um benchmark abrangente em oito tarefas.

Resumo

Modelos de Linguagem de Grande Escala (LLMs) com fortes habilidades em tarefas de processamento de linguagem natural surgiram e têm sido rapidamente aplicados em diversas áreas, como ciência, finanças e engenharia de software. No entanto, a capacidade dos LLMs de avançar o campo da química ainda não é clara. Neste artigo, estabelecemos um benchmark abrangente contendo 8 tarefas práticas de química, incluindo 1) previsão de nomes, 2) previsão de propriedades, 3) previsão de rendimento, 4) previsão de reações, 5) retrossíntese (previsão de reagentes a partir de produtos), 6) design de moléculas baseado em texto, 7) legendagem de moléculas e 8) seleção de reagentes. Nossa análise utiliza conjuntos de dados amplamente reconhecidos, incluindo BBBP, Tox21, PubChem, USPTO e ChEBI, facilitando uma exploração abrangente das capacidades dos LLMs no contexto da química prática. Três modelos GPT (GPT-4, GPT-3.5 e Davinci-003) são avaliados para cada tarefa de química em configurações de aprendizado zero-shot e few-shot com exemplos de demonstração cuidadosamente selecionados e prompts especialmente elaborados. Os principais resultados de nossa investigação são: 1) GPT-4 supera os outros dois modelos entre os três avaliados; 2) os modelos GPT exibem desempenho menos competitivo em tarefas que exigem compreensão precisa da representação SMILES de moléculas, como previsão de reações e retrossíntese; 3) os modelos GPT demonstram fortes capacidades em tarefas de explicação relacionadas a texto, como legendagem de moléculas; e 4) os modelos GPT exibem desempenho comparável ou superior aos modelos clássicos de aprendizado de máquina quando aplicados a problemas químicos que podem ser transformados em tarefas de classificação ou ordenação, como previsão de propriedades e previsão de rendimento.

English

Large Language Models (LLMs) with strong abilities in natural language processing tasks have emerged and have been rapidly applied in various kinds of areas such as science, finance and software engineering. However, the capability of LLMs to advance the field of chemistry remains unclear. In this paper,we establish a comprehensive benchmark containing 8 practical chemistry tasks, including 1) name prediction, 2) property prediction, 3) yield prediction, 4) reaction prediction, 5) retrosynthesis (prediction of reactants from products), 6)text-based molecule design, 7) molecule captioning, and 8) reagent selection. Our analysis draws on widely recognized datasets including BBBP, Tox21, PubChem, USPTO, and ChEBI, facilitating a broad exploration of the capacities of LLMs within the context of practical chemistry. Three GPT models (GPT-4, GPT-3.5,and Davinci-003) are evaluated for each chemistry task in zero-shot and few-shot in-context learning settings with carefully selected demonstration examples and specially crafted prompts. The key results of our investigation are 1) GPT-4 outperforms the other two models among the three evaluated; 2) GPT models exhibit less competitive performance in tasks demanding precise understanding of molecular SMILES representation, such as reaction prediction and retrosynthesis;3) GPT models demonstrate strong capabilities in text-related explanation tasks such as molecule captioning; and 4) GPT models exhibit comparable or better performance to classical machine learning models when applied to chemical problems that can be transformed into classification or ranking tasks, such as property prediction, and yield prediction.

O que os modelos GPT podem realmente fazer em química? Um benchmark abrangente em oito tarefas.

What indeed can GPT models do in chemistry? A comprehensive benchmark on eight tasks

Resumo

Support