Cosa possono effettivamente fare i modelli GPT in chimica? Un benchmark completo su otto compiti
What indeed can GPT models do in chemistry? A comprehensive benchmark on eight tasks
May 27, 2023
Autori: Taicheng Guo, Kehan Guo, Bozhao nan, Zhengwen Liang, Zhichun Guo, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang
cs.AI
Abstract
I Large Language Model (LLM) con forti capacità nelle attività di elaborazione del linguaggio naturale sono emersi e sono stati rapidamente applicati in vari ambiti come la scienza, la finanza e l'ingegneria del software. Tuttavia, la capacità degli LLM di far progredire il campo della chimica rimane poco chiara. In questo articolo, stabiliamo un benchmark completo contenente 8 compiti pratici di chimica, tra cui 1) previsione del nome, 2) previsione delle proprietà, 3) previsione della resa, 4) previsione della reazione, 5) retrosintesi (previsione dei reagenti a partire dai prodotti), 6) progettazione di molecole basata su testo, 7) descrizione di molecole e 8) selezione dei reagenti. La nostra analisi si basa su dataset ampiamente riconosciuti come BBBP, Tox21, PubChem, USPTO e ChEBI, facilitando un'esplorazione approfondita delle capacità degli LLM nel contesto della chimica pratica. Tre modelli GPT (GPT-4, GPT-3.5 e Davinci-003) vengono valutati per ciascun compito di chimica in contesti di apprendimento zero-shot e few-shot con esempi di dimostrazione accuratamente selezionati e prompt appositamente progettati. I risultati chiave della nostra indagine sono: 1) GPT-4 supera gli altri due modelli tra i tre valutati; 2) i modelli GPT mostrano prestazioni meno competitive nei compiti che richiedono una comprensione precisa della rappresentazione SMILES delle molecole, come la previsione delle reazioni e la retrosintesi; 3) i modelli GPT dimostrano forti capacità nei compiti di spiegazione basati su testo, come la descrizione delle molecole; e 4) i modelli GPT mostrano prestazioni comparabili o migliori rispetto ai classici modelli di machine learning quando applicati a problemi chimici che possono essere trasformati in compiti di classificazione o ranking, come la previsione delle proprietà e la previsione della resa.
English
Large Language Models (LLMs) with strong abilities in natural language
processing tasks have emerged and have been rapidly applied in various kinds of
areas such as science, finance and software engineering. However, the
capability of LLMs to advance the field of chemistry remains unclear. In this
paper,we establish a comprehensive benchmark containing 8 practical chemistry
tasks, including 1) name prediction, 2) property prediction, 3) yield
prediction, 4) reaction prediction, 5) retrosynthesis (prediction of reactants
from products), 6)text-based molecule design, 7) molecule captioning, and 8)
reagent selection. Our analysis draws on widely recognized datasets including
BBBP, Tox21, PubChem, USPTO, and ChEBI, facilitating a broad exploration of the
capacities of LLMs within the context of practical chemistry. Three GPT models
(GPT-4, GPT-3.5,and Davinci-003) are evaluated for each chemistry task in
zero-shot and few-shot in-context learning settings with carefully selected
demonstration examples and specially crafted prompts. The key results of our
investigation are 1) GPT-4 outperforms the other two models among the three
evaluated; 2) GPT models exhibit less competitive performance in tasks
demanding precise understanding of molecular SMILES representation, such as
reaction prediction and retrosynthesis;3) GPT models demonstrate strong
capabilities in text-related explanation tasks such as molecule captioning; and
4) GPT models exhibit comparable or better performance to classical machine
learning models when applied to chemical problems that can be transformed into
classification or ranking tasks, such as property prediction, and yield
prediction.