ChatPaper.aiChatPaper

Que peuvent réellement faire les modèles GPT en chimie ? Un benchmark complet sur huit tâches

What indeed can GPT models do in chemistry? A comprehensive benchmark on eight tasks

May 27, 2023
Auteurs: Taicheng Guo, Kehan Guo, Bozhao nan, Zhengwen Liang, Zhichun Guo, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang
cs.AI

Résumé

Les modèles de langage de grande envergure (LLMs), dotés de capacités avancées en traitement du langage naturel, ont émergé et ont été rapidement appliqués dans divers domaines tels que la science, la finance et l'ingénierie logicielle. Cependant, la capacité des LLMs à faire progresser le domaine de la chimie reste incertaine. Dans cet article, nous établissons un benchmark complet comprenant 8 tâches pratiques en chimie, incluant 1) la prédiction de noms, 2) la prédiction de propriétés, 3) la prédiction de rendement, 4) la prédiction de réactions, 5) la rétrosynthèse (prédiction des réactifs à partir des produits), 6) la conception de molécules basée sur le texte, 7) la description de molécules, et 8) la sélection de réactifs. Notre analyse s'appuie sur des ensembles de données largement reconnus, tels que BBBP, Tox21, PubChem, USPTO et ChEBI, permettant une exploration approfondie des capacités des LLMs dans le contexte de la chimie pratique. Trois modèles GPT (GPT-4, GPT-3.5 et Davinci-003) sont évalués pour chaque tâche chimique dans des configurations d'apprentissage zero-shot et few-shot avec des exemples de démonstration soigneusement sélectionnés et des prompts spécialement conçus. Les principaux résultats de notre investigation sont : 1) GPT-4 surpasse les deux autres modèles parmi les trois évalués ; 2) les modèles GPT montrent une performance moins compétitive dans les tâches nécessitant une compréhension précise de la représentation SMILES des molécules, comme la prédiction de réactions et la rétrosynthèse ; 3) les modèles GPT démontrent de fortes capacités dans les tâches d'explication liées au texte, telles que la description de molécules ; et 4) les modèles GPT affichent une performance comparable ou supérieure à celle des modèles classiques d'apprentissage automatique lorsqu'ils sont appliqués à des problèmes chimiques pouvant être transformés en tâches de classification ou de classement, comme la prédiction de propriétés et la prédiction de rendement.
English
Large Language Models (LLMs) with strong abilities in natural language processing tasks have emerged and have been rapidly applied in various kinds of areas such as science, finance and software engineering. However, the capability of LLMs to advance the field of chemistry remains unclear. In this paper,we establish a comprehensive benchmark containing 8 practical chemistry tasks, including 1) name prediction, 2) property prediction, 3) yield prediction, 4) reaction prediction, 5) retrosynthesis (prediction of reactants from products), 6)text-based molecule design, 7) molecule captioning, and 8) reagent selection. Our analysis draws on widely recognized datasets including BBBP, Tox21, PubChem, USPTO, and ChEBI, facilitating a broad exploration of the capacities of LLMs within the context of practical chemistry. Three GPT models (GPT-4, GPT-3.5,and Davinci-003) are evaluated for each chemistry task in zero-shot and few-shot in-context learning settings with carefully selected demonstration examples and specially crafted prompts. The key results of our investigation are 1) GPT-4 outperforms the other two models among the three evaluated; 2) GPT models exhibit less competitive performance in tasks demanding precise understanding of molecular SMILES representation, such as reaction prediction and retrosynthesis;3) GPT models demonstrate strong capabilities in text-related explanation tasks such as molecule captioning; and 4) GPT models exhibit comparable or better performance to classical machine learning models when applied to chemical problems that can be transformed into classification or ranking tasks, such as property prediction, and yield prediction.
PDF40December 15, 2024