ChemLLM: Een Chemisch Taalmodel op Grote Schaal
ChemLLM: A Chemical Large Language Model
February 10, 2024
Auteurs: Di Zhang, Wei Liu, Qian Tan, Jingdan Chen, Hang Yan, Yuliang Yan, Jiatong Li, Weiran Huang, Xiangyu Yue, Dongzhan Zhou, Shufei Zhang, Mao Su, Hansen Zhong, Yuqiang Li, Wanli Ouyang
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben indrukwekkende vooruitgang geboekt in chemietoepassingen, waaronder moleculaire eigenschapsvoorspelling, moleculaire generatie, ontwerp van experimentele protocollen, enz. De gemeenschap mist echter een dialooggebaseerd model dat specifiek is ontworpen voor chemie. De uitdaging ontstaat doordat de meeste chemische data en wetenschappelijke kennis voornamelijk zijn opgeslagen in gestructureerde databases, en het directe gebruik van deze gestructureerde data belemmert het vermogen van het model om coherente dialogen te voeren. Om dit probleem aan te pakken, ontwikkelen we een nieuwe template-gebaseerde instructieconstructiemethode die gestructureerde kennis omzet in gewone dialoog, waardoor het geschikt wordt voor training van taalmodellen. Door gebruik te maken van deze aanpak ontwikkelen we ChemLLM, het eerste grote taalmodel dat specifiek is gewijd aan chemie, dat in staat is om diverse taken uit te voeren binnen chemische disciplines met vloeiende dialooginteractie. ChemLLM verslaat GPT-3.5 op alle drie de belangrijkste taken in de chemie, namelijk naamconversie, moleculaire beschrijving en reactievoorspelling, en overtreft GPT-4 op twee ervan. Opmerkelijk is dat ChemLLM ook een uitzonderlijke aanpassingsvermogen toont aan verwante wiskundige en natuurkundige taken, ondanks dat het voornamelijk is getraind op chemie-gerichte corpora. Bovendien toont ChemLLM vaardigheid in gespecialiseerde NLP-taken binnen de chemie, zoals literatuurvertaling en cheminformatica-programmering. ChemLLM opent een nieuwe weg voor onderzoek binnen chemische studies, terwijl onze methode om gestructureerde chemische kennis te integreren in dialoogsystemen een nieuwe grens markeert voor de ontwikkeling van LLM's in verschillende wetenschappelijke velden. Codes, datasets en modelgewichten zijn publiek toegankelijk op hf.co/AI4Chem/ChemLLM-7B-Chat.
English
Large language models (LLMs) have made impressive progress in chemistry
applications, including molecular property prediction, molecular generation,
experimental protocol design, etc. However, the community lacks a
dialogue-based model specifically designed for chemistry. The challenge arises
from the fact that most chemical data and scientific knowledge are primarily
stored in structured databases, and the direct use of these structured data
compromises the model's ability to maintain coherent dialogue. To tackle this
issue, we develop a novel template-based instruction construction method that
transforms structured knowledge into plain dialogue, making it suitable for
language model training. By leveraging this approach, we develop ChemLLM, the
first large language model dedicated to chemistry, capable of performing
various tasks across chemical disciplines with smooth dialogue interaction.
ChemLLM beats GPT-3.5 on all three principal tasks in chemistry, i.e., name
conversion, molecular caption, and reaction prediction, and surpasses GPT-4 on
two of them. Remarkably, ChemLLM also shows exceptional adaptability to related
mathematical and physical tasks despite being trained mainly on
chemical-centric corpora. Furthermore, ChemLLM demonstrates proficiency in
specialized NLP tasks within chemistry, such as literature translation and
cheminformatic programming. ChemLLM opens up a new avenue for exploration
within chemical studies, while our method of integrating structured chemical
knowledge into dialogue systems sets a new frontier for developing LLMs across
various scientific fields. Codes, Datasets, and Model weights are publicly
accessible at hf.co/AI4Chem/ChemLLM-7B-Chat.