ChemLLM: Um Modelo de Linguagem de Grande Escala para Química
ChemLLM: A Chemical Large Language Model
February 10, 2024
Autores: Di Zhang, Wei Liu, Qian Tan, Jingdan Chen, Hang Yan, Yuliang Yan, Jiatong Li, Weiran Huang, Xiangyu Yue, Dongzhan Zhou, Shufei Zhang, Mao Su, Hansen Zhong, Yuqiang Li, Wanli Ouyang
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) têm feito progressos impressionantes em aplicações de química, incluindo previsão de propriedades moleculares, geração molecular, design de protocolos experimentais, entre outros. No entanto, a comunidade carece de um modelo baseado em diálogo especificamente projetado para química. O desafio surge do fato de que a maioria dos dados químicos e do conhecimento científico estão principalmente armazenados em bancos de dados estruturados, e o uso direto desses dados estruturados compromete a capacidade do modelo de manter um diálogo coerente. Para enfrentar esse problema, desenvolvemos um novo método de construção de instruções baseado em templates que transforma o conhecimento estruturado em diálogos simples, tornando-o adequado para o treinamento de modelos de linguagem. Ao aproveitar essa abordagem, desenvolvemos o ChemLLM, o primeiro modelo de linguagem de grande escala dedicado à química, capaz de realizar várias tarefas em diferentes disciplinas químicas com interação de diálogo fluida. O ChemLLM supera o GPT-3.5 em todas as três principais tarefas em química, ou seja, conversão de nomes, descrição molecular e previsão de reações, e ultrapassa o GPT-4 em duas delas. Notavelmente, o ChemLLM também mostra uma adaptabilidade excepcional a tarefas relacionadas de matemática e física, apesar de ter sido treinado principalmente em corpora centrados em química. Além disso, o ChemLLM demonstra proficiência em tarefas especializadas de PLN dentro da química, como tradução de literatura e programação quimioinformática. O ChemLLM abre um novo caminho para exploração dentro dos estudos químicos, enquanto nosso método de integrar conhecimento químico estruturado em sistemas de diálogo estabelece uma nova fronteira para o desenvolvimento de LLMs em vários campos científicos. Códigos, conjuntos de dados e pesos do modelo estão publicamente acessíveis em hf.co/AI4Chem/ChemLLM-7B-Chat.
English
Large language models (LLMs) have made impressive progress in chemistry
applications, including molecular property prediction, molecular generation,
experimental protocol design, etc. However, the community lacks a
dialogue-based model specifically designed for chemistry. The challenge arises
from the fact that most chemical data and scientific knowledge are primarily
stored in structured databases, and the direct use of these structured data
compromises the model's ability to maintain coherent dialogue. To tackle this
issue, we develop a novel template-based instruction construction method that
transforms structured knowledge into plain dialogue, making it suitable for
language model training. By leveraging this approach, we develop ChemLLM, the
first large language model dedicated to chemistry, capable of performing
various tasks across chemical disciplines with smooth dialogue interaction.
ChemLLM beats GPT-3.5 on all three principal tasks in chemistry, i.e., name
conversion, molecular caption, and reaction prediction, and surpasses GPT-4 on
two of them. Remarkably, ChemLLM also shows exceptional adaptability to related
mathematical and physical tasks despite being trained mainly on
chemical-centric corpora. Furthermore, ChemLLM demonstrates proficiency in
specialized NLP tasks within chemistry, such as literature translation and
cheminformatic programming. ChemLLM opens up a new avenue for exploration
within chemical studies, while our method of integrating structured chemical
knowledge into dialogue systems sets a new frontier for developing LLMs across
various scientific fields. Codes, Datasets, and Model weights are publicly
accessible at hf.co/AI4Chem/ChemLLM-7B-Chat.