ChatPaper.aiChatPaper

ChemLLM: Ein chemisches Großsprachmodell

ChemLLM: A Chemical Large Language Model

February 10, 2024
Autoren: Di Zhang, Wei Liu, Qian Tan, Jingdan Chen, Hang Yan, Yuliang Yan, Jiatong Li, Weiran Huang, Xiangyu Yue, Dongzhan Zhou, Shufei Zhang, Mao Su, Hansen Zhong, Yuqiang Li, Wanli Ouyang
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben beeindruckende Fortschritte in chemischen Anwendungen erzielt, einschließlich der Vorhersage molekularer Eigenschaften, der Molekülgenerierung und dem Design experimenteller Protokolle. Dennoch fehlt der Gemeinschaft ein dialogbasiertes Modell, das speziell für die Chemie entwickelt wurde. Die Herausforderung besteht darin, dass die meisten chemischen Daten und wissenschaftlichen Erkenntnisse hauptsächlich in strukturierten Datenbanken gespeichert sind, und die direkte Nutzung dieser strukturierten Daten beeinträchtigt die Fähigkeit des Modells, kohärente Dialoge zu führen. Um dieses Problem zu lösen, entwickeln wir eine neuartige, vorlagenbasierte Methode zur Instruktionskonstruktion, die strukturiertes Wissen in einfache Dialoge umwandelt und so für das Training von Sprachmodellen geeignet macht. Mit diesem Ansatz entwickeln wir ChemLLM, das erste große Sprachmodell, das speziell für die Chemie entwickelt wurde und in der Lage ist, verschiedene Aufgaben über chemische Disziplinen hinweg mit flüssiger Dialoginteraktion zu bewältigen. ChemLLM übertrifft GPT-3.5 bei allen drei Hauptaufgaben in der Chemie, nämlich Namenskonvertierung, Molekülbeschreibung und Reaktionsvorhersage, und übertrifft GPT-4 bei zwei davon. Bemerkenswerterweise zeigt ChemLLM auch eine außergewöhnliche Anpassungsfähigkeit an verwandte mathematische und physikalische Aufgaben, obwohl es hauptsächlich auf chemiezentrierten Korpora trainiert wurde. Darüber hinaus demonstriert ChemLLM Kompetenz in spezialisierten NLP-Aufgaben innerhalb der Chemie, wie Literaturübersetzung und cheminformatischer Programmierung. ChemLLM eröffnet neue Wege für die Erforschung chemischer Studien, während unsere Methode zur Integration strukturierten chemischen Wissens in Dialogsysteme eine neue Grenze für die Entwicklung von LLMs in verschiedenen wissenschaftlichen Bereichen setzt. Codes, Datensätze und Modellgewichte sind öffentlich zugänglich unter hf.co/AI4Chem/ChemLLM-7B-Chat.
English
Large language models (LLMs) have made impressive progress in chemistry applications, including molecular property prediction, molecular generation, experimental protocol design, etc. However, the community lacks a dialogue-based model specifically designed for chemistry. The challenge arises from the fact that most chemical data and scientific knowledge are primarily stored in structured databases, and the direct use of these structured data compromises the model's ability to maintain coherent dialogue. To tackle this issue, we develop a novel template-based instruction construction method that transforms structured knowledge into plain dialogue, making it suitable for language model training. By leveraging this approach, we develop ChemLLM, the first large language model dedicated to chemistry, capable of performing various tasks across chemical disciplines with smooth dialogue interaction. ChemLLM beats GPT-3.5 on all three principal tasks in chemistry, i.e., name conversion, molecular caption, and reaction prediction, and surpasses GPT-4 on two of them. Remarkably, ChemLLM also shows exceptional adaptability to related mathematical and physical tasks despite being trained mainly on chemical-centric corpora. Furthermore, ChemLLM demonstrates proficiency in specialized NLP tasks within chemistry, such as literature translation and cheminformatic programming. ChemLLM opens up a new avenue for exploration within chemical studies, while our method of integrating structured chemical knowledge into dialogue systems sets a new frontier for developing LLMs across various scientific fields. Codes, Datasets, and Model weights are publicly accessible at hf.co/AI4Chem/ChemLLM-7B-Chat.
PDF317December 15, 2024