ChemLLM : Un modèle de langage de grande envergure pour la chimie
ChemLLM: A Chemical Large Language Model
February 10, 2024
Auteurs: Di Zhang, Wei Liu, Qian Tan, Jingdan Chen, Hang Yan, Yuliang Yan, Jiatong Li, Weiran Huang, Xiangyu Yue, Dongzhan Zhou, Shufei Zhang, Mao Su, Hansen Zhong, Yuqiang Li, Wanli Ouyang
cs.AI
Résumé
Les grands modèles de langage (LLM) ont réalisé des progrès impressionnants dans les applications chimiques, notamment la prédiction des propriétés moléculaires, la génération de molécules, la conception de protocoles expérimentaux, etc. Cependant, la communauté manque d'un modèle basé sur le dialogue spécifiquement conçu pour la chimie. Le défi provient du fait que la plupart des données chimiques et des connaissances scientifiques sont principalement stockées dans des bases de données structurées, et l'utilisation directe de ces données structurées compromet la capacité du modèle à maintenir un dialogue cohérent. Pour résoudre ce problème, nous développons une nouvelle méthode de construction d'instructions basée sur des modèles qui transforme les connaissances structurées en dialogue simple, les rendant ainsi adaptées à l'entraînement des modèles de langage. En exploitant cette approche, nous développons ChemLLM, le premier grand modèle de langage dédié à la chimie, capable d'exécuter diverses tâches à travers les disciplines chimiques avec une interaction fluide en dialogue. ChemLLM surpasse GPT-3.5 sur les trois principales tâches en chimie, à savoir la conversion de noms, la description moléculaire et la prédiction de réactions, et dépasse GPT-4 sur deux d'entre elles. Remarquablement, ChemLLM montre également une adaptabilité exceptionnelle à des tâches mathématiques et physiques connexes, malgré un entraînement principalement sur des corpus centrés sur la chimie. De plus, ChemLLM démontre une maîtrise dans des tâches spécialisées de traitement du langage naturel (NLP) en chimie, telles que la traduction de littérature et la programmation chémoinformatique. ChemLLM ouvre une nouvelle voie d'exploration dans les études chimiques, tandis que notre méthode d'intégration des connaissances chimiques structurées dans les systèmes de dialogue établit une nouvelle frontière pour le développement de LLM dans divers domaines scientifiques. Les codes, les jeux de données et les poids du modèle sont accessibles publiquement à l'adresse hf.co/AI4Chem/ChemLLM-7B-Chat.
English
Large language models (LLMs) have made impressive progress in chemistry
applications, including molecular property prediction, molecular generation,
experimental protocol design, etc. However, the community lacks a
dialogue-based model specifically designed for chemistry. The challenge arises
from the fact that most chemical data and scientific knowledge are primarily
stored in structured databases, and the direct use of these structured data
compromises the model's ability to maintain coherent dialogue. To tackle this
issue, we develop a novel template-based instruction construction method that
transforms structured knowledge into plain dialogue, making it suitable for
language model training. By leveraging this approach, we develop ChemLLM, the
first large language model dedicated to chemistry, capable of performing
various tasks across chemical disciplines with smooth dialogue interaction.
ChemLLM beats GPT-3.5 on all three principal tasks in chemistry, i.e., name
conversion, molecular caption, and reaction prediction, and surpasses GPT-4 on
two of them. Remarkably, ChemLLM also shows exceptional adaptability to related
mathematical and physical tasks despite being trained mainly on
chemical-centric corpora. Furthermore, ChemLLM demonstrates proficiency in
specialized NLP tasks within chemistry, such as literature translation and
cheminformatic programming. ChemLLM opens up a new avenue for exploration
within chemical studies, while our method of integrating structured chemical
knowledge into dialogue systems sets a new frontier for developing LLMs across
various scientific fields. Codes, Datasets, and Model weights are publicly
accessible at hf.co/AI4Chem/ChemLLM-7B-Chat.