Que peuvent réellement faire les modèles GPT en chimie ? Un benchmark complet sur huit tâches
What indeed can GPT models do in chemistry? A comprehensive benchmark on eight tasks
May 27, 2023
Auteurs: Taicheng Guo, Kehan Guo, Bozhao nan, Zhengwen Liang, Zhichun Guo, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang
cs.AI
Résumé
Les modèles de langage de grande envergure (LLMs), dotés de capacités avancées en traitement du langage naturel, ont émergé et ont été rapidement appliqués dans divers domaines tels que la science, la finance et l'ingénierie logicielle. Cependant, la capacité des LLMs à faire progresser le domaine de la chimie reste incertaine. Dans cet article, nous établissons un benchmark complet comprenant 8 tâches pratiques en chimie, incluant 1) la prédiction de noms, 2) la prédiction de propriétés, 3) la prédiction de rendement, 4) la prédiction de réactions, 5) la rétrosynthèse (prédiction des réactifs à partir des produits), 6) la conception de molécules basée sur le texte, 7) la description de molécules, et 8) la sélection de réactifs. Notre analyse s'appuie sur des ensembles de données largement reconnus, tels que BBBP, Tox21, PubChem, USPTO et ChEBI, permettant une exploration approfondie des capacités des LLMs dans le contexte de la chimie pratique. Trois modèles GPT (GPT-4, GPT-3.5 et Davinci-003) sont évalués pour chaque tâche chimique dans des configurations d'apprentissage zero-shot et few-shot avec des exemples de démonstration soigneusement sélectionnés et des prompts spécialement conçus. Les principaux résultats de notre investigation sont : 1) GPT-4 surpasse les deux autres modèles parmi les trois évalués ; 2) les modèles GPT montrent une performance moins compétitive dans les tâches nécessitant une compréhension précise de la représentation SMILES des molécules, comme la prédiction de réactions et la rétrosynthèse ; 3) les modèles GPT démontrent de fortes capacités dans les tâches d'explication liées au texte, telles que la description de molécules ; et 4) les modèles GPT affichent une performance comparable ou supérieure à celle des modèles classiques d'apprentissage automatique lorsqu'ils sont appliqués à des problèmes chimiques pouvant être transformés en tâches de classification ou de classement, comme la prédiction de propriétés et la prédiction de rendement.
English
Large Language Models (LLMs) with strong abilities in natural language
processing tasks have emerged and have been rapidly applied in various kinds of
areas such as science, finance and software engineering. However, the
capability of LLMs to advance the field of chemistry remains unclear. In this
paper,we establish a comprehensive benchmark containing 8 practical chemistry
tasks, including 1) name prediction, 2) property prediction, 3) yield
prediction, 4) reaction prediction, 5) retrosynthesis (prediction of reactants
from products), 6)text-based molecule design, 7) molecule captioning, and 8)
reagent selection. Our analysis draws on widely recognized datasets including
BBBP, Tox21, PubChem, USPTO, and ChEBI, facilitating a broad exploration of the
capacities of LLMs within the context of practical chemistry. Three GPT models
(GPT-4, GPT-3.5,and Davinci-003) are evaluated for each chemistry task in
zero-shot and few-shot in-context learning settings with carefully selected
demonstration examples and specially crafted prompts. The key results of our
investigation are 1) GPT-4 outperforms the other two models among the three
evaluated; 2) GPT models exhibit less competitive performance in tasks
demanding precise understanding of molecular SMILES representation, such as
reaction prediction and retrosynthesis;3) GPT models demonstrate strong
capabilities in text-related explanation tasks such as molecule captioning; and
4) GPT models exhibit comparable or better performance to classical machine
learning models when applied to chemical problems that can be transformed into
classification or ranking tasks, such as property prediction, and yield
prediction.