Cosa possono effettivamente fare i modelli GPT in chimica? Un benchmark completo su otto compiti

Abstract

I Large Language Model (LLM) con forti capacità nelle attività di elaborazione del linguaggio naturale sono emersi e sono stati rapidamente applicati in vari ambiti come la scienza, la finanza e l'ingegneria del software. Tuttavia, la capacità degli LLM di far progredire il campo della chimica rimane poco chiara. In questo articolo, stabiliamo un benchmark completo contenente 8 compiti pratici di chimica, tra cui 1) previsione del nome, 2) previsione delle proprietà, 3) previsione della resa, 4) previsione della reazione, 5) retrosintesi (previsione dei reagenti a partire dai prodotti), 6) progettazione di molecole basata su testo, 7) descrizione di molecole e 8) selezione dei reagenti. La nostra analisi si basa su dataset ampiamente riconosciuti come BBBP, Tox21, PubChem, USPTO e ChEBI, facilitando un'esplorazione approfondita delle capacità degli LLM nel contesto della chimica pratica. Tre modelli GPT (GPT-4, GPT-3.5 e Davinci-003) vengono valutati per ciascun compito di chimica in contesti di apprendimento zero-shot e few-shot con esempi di dimostrazione accuratamente selezionati e prompt appositamente progettati. I risultati chiave della nostra indagine sono: 1) GPT-4 supera gli altri due modelli tra i tre valutati; 2) i modelli GPT mostrano prestazioni meno competitive nei compiti che richiedono una comprensione precisa della rappresentazione SMILES delle molecole, come la previsione delle reazioni e la retrosintesi; 3) i modelli GPT dimostrano forti capacità nei compiti di spiegazione basati su testo, come la descrizione delle molecole; e 4) i modelli GPT mostrano prestazioni comparabili o migliori rispetto ai classici modelli di machine learning quando applicati a problemi chimici che possono essere trasformati in compiti di classificazione o ranking, come la previsione delle proprietà e la previsione della resa.

English

Large Language Models (LLMs) with strong abilities in natural language processing tasks have emerged and have been rapidly applied in various kinds of areas such as science, finance and software engineering. However, the capability of LLMs to advance the field of chemistry remains unclear. In this paper,we establish a comprehensive benchmark containing 8 practical chemistry tasks, including 1) name prediction, 2) property prediction, 3) yield prediction, 4) reaction prediction, 5) retrosynthesis (prediction of reactants from products), 6)text-based molecule design, 7) molecule captioning, and 8) reagent selection. Our analysis draws on widely recognized datasets including BBBP, Tox21, PubChem, USPTO, and ChEBI, facilitating a broad exploration of the capacities of LLMs within the context of practical chemistry. Three GPT models (GPT-4, GPT-3.5,and Davinci-003) are evaluated for each chemistry task in zero-shot and few-shot in-context learning settings with carefully selected demonstration examples and specially crafted prompts. The key results of our investigation are 1) GPT-4 outperforms the other two models among the three evaluated; 2) GPT models exhibit less competitive performance in tasks demanding precise understanding of molecular SMILES representation, such as reaction prediction and retrosynthesis;3) GPT models demonstrate strong capabilities in text-related explanation tasks such as molecule captioning; and 4) GPT models exhibit comparable or better performance to classical machine learning models when applied to chemical problems that can be transformed into classification or ranking tasks, such as property prediction, and yield prediction.

Cosa possono effettivamente fare i modelli GPT in chimica? Un benchmark completo su otto compiti

What indeed can GPT models do in chemistry? A comprehensive benchmark on eight tasks

Abstract

Support