ChatPaper.aiChatPaper

ChemLLM: Химическая модель большого языка

ChemLLM: A Chemical Large Language Model

February 10, 2024
Авторы: Di Zhang, Wei Liu, Qian Tan, Jingdan Chen, Hang Yan, Yuliang Yan, Jiatong Li, Weiran Huang, Xiangyu Yue, Dongzhan Zhou, Shufei Zhang, Mao Su, Hansen Zhong, Yuqiang Li, Wanli Ouyang
cs.AI

Аннотация

Крупные языковые модели (LLM) достигли значительных успехов в химических приложениях, включая предсказание свойств молекул, генерацию молекул, разработку экспериментальных протоколов и т.д. Однако сообществу не хватает диалоговой модели, специально разработанной для химии. Основная сложность заключается в том, что большинство химических данных и научных знаний хранятся в структурированных базах данных, и прямое использование этих структурированных данных ограничивает способность модели поддерживать связный диалог. Для решения этой проблемы мы разработали новый метод построения инструкций на основе шаблонов, который преобразует структурированные знания в простой диалоговый формат, подходящий для обучения языковых моделей. Используя этот подход, мы создали ChemLLM — первую крупную языковую модель, посвящённую химии, способную выполнять различные задачи в химических дисциплинах с плавным диалоговым взаимодействием. ChemLLM превосходит GPT-3.5 по всем трём основным задачам в химии, таким как конвертация названий, описание молекул и предсказание реакций, и опережает GPT-4 по двум из них. Примечательно, что ChemLLM также демонстрирует исключительную адаптивность к связанным математическим и физическим задачам, несмотря на обучение преимущественно на химически ориентированных корпусах. Кроме того, ChemLLM показывает высокую эффективность в специализированных NLP-задачах в химии, таких как перевод научной литературы и программирование в области хемоинформатики. ChemLLM открывает новые возможности для исследований в химии, а наш метод интеграции структурированных химических знаний в диалоговые системы задаёт новый стандарт для разработки LLM в различных научных областях. Коды, наборы данных и веса модели доступны публично по адресу hf.co/AI4Chem/ChemLLM-7B-Chat.
English
Large language models (LLMs) have made impressive progress in chemistry applications, including molecular property prediction, molecular generation, experimental protocol design, etc. However, the community lacks a dialogue-based model specifically designed for chemistry. The challenge arises from the fact that most chemical data and scientific knowledge are primarily stored in structured databases, and the direct use of these structured data compromises the model's ability to maintain coherent dialogue. To tackle this issue, we develop a novel template-based instruction construction method that transforms structured knowledge into plain dialogue, making it suitable for language model training. By leveraging this approach, we develop ChemLLM, the first large language model dedicated to chemistry, capable of performing various tasks across chemical disciplines with smooth dialogue interaction. ChemLLM beats GPT-3.5 on all three principal tasks in chemistry, i.e., name conversion, molecular caption, and reaction prediction, and surpasses GPT-4 on two of them. Remarkably, ChemLLM also shows exceptional adaptability to related mathematical and physical tasks despite being trained mainly on chemical-centric corpora. Furthermore, ChemLLM demonstrates proficiency in specialized NLP tasks within chemistry, such as literature translation and cheminformatic programming. ChemLLM opens up a new avenue for exploration within chemical studies, while our method of integrating structured chemical knowledge into dialogue systems sets a new frontier for developing LLMs across various scientific fields. Codes, Datasets, and Model weights are publicly accessible at hf.co/AI4Chem/ChemLLM-7B-Chat.
PDF317December 15, 2024