Was können GPT-Modelle tatsächlich in der Chemie leisten? Eine umfassende Benchmark zu acht Aufgaben.
What indeed can GPT models do in chemistry? A comprehensive benchmark on eight tasks
May 27, 2023
Autoren: Taicheng Guo, Kehan Guo, Bozhao nan, Zhengwen Liang, Zhichun Guo, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) mit starken Fähigkeiten in der Verarbeitung natürlicher Sprache sind entstanden und wurden schnell in verschiedenen Bereichen wie Wissenschaft, Finanzen und Softwareentwicklung eingesetzt. Die Fähigkeit von LLMs, das Feld der Chemie voranzubringen, bleibt jedoch unklar. In diesem Artikel erstellen wir einen umfassenden Benchmark, der acht praktische chemische Aufgaben umfasst, darunter 1) Namensvorhersage, 2) Eigenschaftsvorhersage, 3) Ausbeutevorhersage, 4) Reaktionsvorhersage, 5) Retrosynthese (Vorhersage von Edukten aus Produkten), 6) textbasierte Moleküldesign, 7) Molekülbeschreibung und 8) Reagenzienauswahl. Unsere Analyse stützt sich auf weit anerkannte Datensätze wie BBBP, Tox21, PubChem, USPTO und ChEBI, was eine breite Erforschung der Fähigkeiten von LLMs im Kontext der praktischen Chemie ermöglicht. Drei GPT-Modelle (GPT-4, GPT-3.5 und Davinci-003) werden für jede chemische Aufgabe in Zero-Shot- und Few-Shot-In-Context-Learning-Szenarien mit sorgfältig ausgewählten Demonstrationsbeispielen und speziell gestalteten Prompts evaluiert. Die wichtigsten Ergebnisse unserer Untersuchung sind: 1) GPT-4 übertrifft die beiden anderen Modelle unter den drei evaluierten; 2) GPT-Modelle zeigen weniger wettbewerbsfähige Leistungen bei Aufgaben, die ein präzises Verständnis der molekularen SMILES-Darstellung erfordern, wie Reaktionsvorhersage und Retrosynthese; 3) GPT-Modelle demonstrieren starke Fähigkeiten in textbezogenen Erklärungstasks wie Molekülbeschreibung; und 4) GPT-Modelle zeigen vergleichbare oder bessere Leistungen im Vergleich zu klassischen maschinellen Lernmodellen, wenn sie auf chemische Probleme angewendet werden, die in Klassifikations- oder Ranking-Aufgaben transformiert werden können, wie Eigenschaftsvorhersage und Ausbeutevorhersage.
English
Large Language Models (LLMs) with strong abilities in natural language
processing tasks have emerged and have been rapidly applied in various kinds of
areas such as science, finance and software engineering. However, the
capability of LLMs to advance the field of chemistry remains unclear. In this
paper,we establish a comprehensive benchmark containing 8 practical chemistry
tasks, including 1) name prediction, 2) property prediction, 3) yield
prediction, 4) reaction prediction, 5) retrosynthesis (prediction of reactants
from products), 6)text-based molecule design, 7) molecule captioning, and 8)
reagent selection. Our analysis draws on widely recognized datasets including
BBBP, Tox21, PubChem, USPTO, and ChEBI, facilitating a broad exploration of the
capacities of LLMs within the context of practical chemistry. Three GPT models
(GPT-4, GPT-3.5,and Davinci-003) are evaluated for each chemistry task in
zero-shot and few-shot in-context learning settings with carefully selected
demonstration examples and specially crafted prompts. The key results of our
investigation are 1) GPT-4 outperforms the other two models among the three
evaluated; 2) GPT models exhibit less competitive performance in tasks
demanding precise understanding of molecular SMILES representation, such as
reaction prediction and retrosynthesis;3) GPT models demonstrate strong
capabilities in text-related explanation tasks such as molecule captioning; and
4) GPT models exhibit comparable or better performance to classical machine
learning models when applied to chemical problems that can be transformed into
classification or ranking tasks, such as property prediction, and yield
prediction.