ChatPaper.aiChatPaper

ChemLLM: Un Modelo de Lenguaje de Gran Escala para Química

ChemLLM: A Chemical Large Language Model

February 10, 2024
Autores: Di Zhang, Wei Liu, Qian Tan, Jingdan Chen, Hang Yan, Yuliang Yan, Jiatong Li, Weiran Huang, Xiangyu Yue, Dongzhan Zhou, Shufei Zhang, Mao Su, Hansen Zhong, Yuqiang Li, Wanli Ouyang
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado avances impresionantes en aplicaciones de química, incluyendo la predicción de propiedades moleculares, la generación de moléculas, el diseño de protocolos experimentales, entre otros. Sin embargo, la comunidad carece de un modelo basado en diálogo específicamente diseñado para la química. El desafío surge del hecho de que la mayoría de los datos químicos y el conocimiento científico se almacenan principalmente en bases de datos estructuradas, y el uso directo de estos datos estructurados compromete la capacidad del modelo para mantener un diálogo coherente. Para abordar este problema, desarrollamos un novedoso método de construcción de instrucciones basado en plantillas que transforma el conocimiento estructurado en diálogos en texto plano, haciéndolo adecuado para el entrenamiento de modelos de lenguaje. Al aprovechar este enfoque, desarrollamos ChemLLM, el primer modelo de lenguaje de gran escala dedicado a la química, capaz de realizar diversas tareas en disciplinas químicas con una interacción fluida en diálogo. ChemLLM supera a GPT-3.5 en las tres tareas principales de química, es decir, conversión de nombres, descripción molecular y predicción de reacciones, y supera a GPT-4 en dos de ellas. Notablemente, ChemLLM también muestra una adaptabilidad excepcional a tareas relacionadas con matemáticas y física, a pesar de haber sido entrenado principalmente con corpus centrados en química. Además, ChemLLM demuestra competencia en tareas especializadas de procesamiento de lenguaje natural (NLP) dentro de la química, como la traducción de literatura y la programación quimioinformática. ChemLLM abre una nueva vía de exploración dentro de los estudios químicos, mientras que nuestro método de integrar conocimiento químico estructurado en sistemas de diálogo establece una nueva frontera para el desarrollo de LLMs en diversos campos científicos. Los códigos, conjuntos de datos y pesos del modelo están disponibles públicamente en hf.co/AI4Chem/ChemLLM-7B-Chat.
English
Large language models (LLMs) have made impressive progress in chemistry applications, including molecular property prediction, molecular generation, experimental protocol design, etc. However, the community lacks a dialogue-based model specifically designed for chemistry. The challenge arises from the fact that most chemical data and scientific knowledge are primarily stored in structured databases, and the direct use of these structured data compromises the model's ability to maintain coherent dialogue. To tackle this issue, we develop a novel template-based instruction construction method that transforms structured knowledge into plain dialogue, making it suitable for language model training. By leveraging this approach, we develop ChemLLM, the first large language model dedicated to chemistry, capable of performing various tasks across chemical disciplines with smooth dialogue interaction. ChemLLM beats GPT-3.5 on all three principal tasks in chemistry, i.e., name conversion, molecular caption, and reaction prediction, and surpasses GPT-4 on two of them. Remarkably, ChemLLM also shows exceptional adaptability to related mathematical and physical tasks despite being trained mainly on chemical-centric corpora. Furthermore, ChemLLM demonstrates proficiency in specialized NLP tasks within chemistry, such as literature translation and cheminformatic programming. ChemLLM opens up a new avenue for exploration within chemical studies, while our method of integrating structured chemical knowledge into dialogue systems sets a new frontier for developing LLMs across various scientific fields. Codes, Datasets, and Model weights are publicly accessible at hf.co/AI4Chem/ChemLLM-7B-Chat.
PDF317December 15, 2024