Wat kunnen GPT-modellen eigenlijk doen in de chemie? Een uitgebreide benchmark over acht taken
What indeed can GPT models do in chemistry? A comprehensive benchmark on eight tasks
May 27, 2023
Auteurs: Taicheng Guo, Kehan Guo, Bozhao nan, Zhengwen Liang, Zhichun Guo, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) met sterke vaardigheden in natuurlijke taalverwerkingstaken zijn opgekomen en worden snel toegepast in diverse gebieden zoals wetenschap, financiën en software engineering. Het vermogen van LLMs om het vakgebied van de chemie vooruit te helpen, blijft echter onduidelijk. In dit artikel stellen we een uitgebreide benchmark op die 8 praktische chemietaken omvat, waaronder 1) naamvoorspelling, 2) eigenschapsvoorspelling, 3) opbrengstvoorspelling, 4) reactievoorspelling, 5) retrosynthese (voorspelling van reactanten uit producten), 6) tekstgebaseerd molecuulontwerp, 7) molecuulbeschrijving en 8) reagensselectie. Onze analyse maakt gebruik van algemeen erkende datasets zoals BBBP, Tox21, PubChem, USPTO en ChEBI, wat een brede verkenning van de capaciteiten van LLMs binnen de context van praktische chemie mogelijk maakt. Drie GPT-modellen (GPT-4, GPT-3.5 en Davinci-003) worden geëvalueerd voor elke chemietaak in zero-shot en few-shot in-context leeromgevingen met zorgvuldig geselecteerde demonstratievoorbeelden en speciaal ontworpen prompts. De belangrijkste resultaten van ons onderzoek zijn: 1) GPT-4 presteert beter dan de andere twee modellen onder de drie geëvalueerde; 2) GPT-modellen vertonen minder competitieve prestaties in taken die een nauwkeurig begrip van moleculaire SMILES-representatie vereisen, zoals reactievoorspelling en retrosynthese; 3) GPT-modellen tonen sterke capaciteiten in tekstgerelateerde uitlegtaken zoals molecuulbeschrijving; en 4) GPT-modellen vertonen vergelijkbare of betere prestaties dan klassieke machine learning-modellen wanneer ze worden toegepast op chemische problemen die kunnen worden omgezet in classificatie- of rangschikkingstaken, zoals eigenschapsvoorspelling en opbrengstvoorspelling.
English
Large Language Models (LLMs) with strong abilities in natural language
processing tasks have emerged and have been rapidly applied in various kinds of
areas such as science, finance and software engineering. However, the
capability of LLMs to advance the field of chemistry remains unclear. In this
paper,we establish a comprehensive benchmark containing 8 practical chemistry
tasks, including 1) name prediction, 2) property prediction, 3) yield
prediction, 4) reaction prediction, 5) retrosynthesis (prediction of reactants
from products), 6)text-based molecule design, 7) molecule captioning, and 8)
reagent selection. Our analysis draws on widely recognized datasets including
BBBP, Tox21, PubChem, USPTO, and ChEBI, facilitating a broad exploration of the
capacities of LLMs within the context of practical chemistry. Three GPT models
(GPT-4, GPT-3.5,and Davinci-003) are evaluated for each chemistry task in
zero-shot and few-shot in-context learning settings with carefully selected
demonstration examples and specially crafted prompts. The key results of our
investigation are 1) GPT-4 outperforms the other two models among the three
evaluated; 2) GPT models exhibit less competitive performance in tasks
demanding precise understanding of molecular SMILES representation, such as
reaction prediction and retrosynthesis;3) GPT models demonstrate strong
capabilities in text-related explanation tasks such as molecule captioning; and
4) GPT models exhibit comparable or better performance to classical machine
learning models when applied to chemical problems that can be transformed into
classification or ranking tasks, such as property prediction, and yield
prediction.