¿Qué pueden hacer realmente los modelos GPT en química? Una evaluación integral en ocho tareas.
What indeed can GPT models do in chemistry? A comprehensive benchmark on eight tasks
May 27, 2023
Autores: Taicheng Guo, Kehan Guo, Bozhao nan, Zhengwen Liang, Zhichun Guo, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) con fuertes capacidades en tareas de procesamiento de lenguaje natural han surgido y se han aplicado rápidamente en diversas áreas como la ciencia, las finanzas y la ingeniería de software. Sin embargo, la capacidad de los LLMs para avanzar en el campo de la química sigue siendo incierta. En este artículo, establecemos un punto de referencia integral que contiene 8 tareas prácticas de química, incluyendo 1) predicción de nombres, 2) predicción de propiedades, 3) predicción de rendimiento, 4) predicción de reacciones, 5) retrosíntesis (predicción de reactivos a partir de productos), 6) diseño de moléculas basado en texto, 7) descripción de moléculas y 8) selección de reactivos. Nuestro análisis se basa en conjuntos de datos ampliamente reconocidos como BBBP, Tox21, PubChem, USPTO y ChEBI, lo que facilita una exploración amplia de las capacidades de los LLMs en el contexto de la química práctica. Se evalúan tres modelos GPT (GPT-4, GPT-3.5 y Davinci-003) para cada tarea de química en configuraciones de aprendizaje en contexto de cero disparos y pocos disparos, con ejemplos de demostración cuidadosamente seleccionados y mensajes especialmente diseñados. Los resultados clave de nuestra investigación son: 1) GPT-4 supera a los otros dos modelos entre los tres evaluados; 2) los modelos GPT muestran un rendimiento menos competitivo en tareas que requieren una comprensión precisa de la representación SMILES de moléculas, como la predicción de reacciones y la retrosíntesis; 3) los modelos GPT demuestran fuertes capacidades en tareas de explicación relacionadas con texto, como la descripción de moléculas; y 4) los modelos GPT muestran un rendimiento comparable o mejor que los modelos clásicos de aprendizaje automático cuando se aplican a problemas químicos que pueden transformarse en tareas de clasificación o clasificación, como la predicción de propiedades y la predicción de rendimiento.
English
Large Language Models (LLMs) with strong abilities in natural language
processing tasks have emerged and have been rapidly applied in various kinds of
areas such as science, finance and software engineering. However, the
capability of LLMs to advance the field of chemistry remains unclear. In this
paper,we establish a comprehensive benchmark containing 8 practical chemistry
tasks, including 1) name prediction, 2) property prediction, 3) yield
prediction, 4) reaction prediction, 5) retrosynthesis (prediction of reactants
from products), 6)text-based molecule design, 7) molecule captioning, and 8)
reagent selection. Our analysis draws on widely recognized datasets including
BBBP, Tox21, PubChem, USPTO, and ChEBI, facilitating a broad exploration of the
capacities of LLMs within the context of practical chemistry. Three GPT models
(GPT-4, GPT-3.5,and Davinci-003) are evaluated for each chemistry task in
zero-shot and few-shot in-context learning settings with carefully selected
demonstration examples and specially crafted prompts. The key results of our
investigation are 1) GPT-4 outperforms the other two models among the three
evaluated; 2) GPT models exhibit less competitive performance in tasks
demanding precise understanding of molecular SMILES representation, such as
reaction prediction and retrosynthesis;3) GPT models demonstrate strong
capabilities in text-related explanation tasks such as molecule captioning; and
4) GPT models exhibit comparable or better performance to classical machine
learning models when applied to chemical problems that can be transformed into
classification or ranking tasks, such as property prediction, and yield
prediction.