Большое семейство базовых моделей кодировщик-декодировщик для химического языка
A Large Encoder-Decoder Family of Foundation Models For Chemical Language
July 24, 2024
Авторы: Eduardo Soares, Victor Shirasuna, Emilio Vital Brazil, Renato Cerqueira, Dmitry Zubarev, Kristin Schmidt
cs.AI
Аннотация
Методологии масштабного предварительного обучения для химических языковых моделей представляют собой прорыв в химинформатике. Эти методы отлично справляются с задачами, такими как предсказание свойств и генерация молекул, обучая контекстуализированные представления входных токенов через самообучение на больших неразмеченных корпусах. Обычно это включает предварительное обучение на неразмеченных данных, за которым следует настройка на конкретные задачи, снижая зависимость от размеченных наборов данных и расширяя понимание химического языка. В данной статье представлены крупные предварительно обученные химические модели основы кодировщик-декодировщик на отобранном наборе данных из 91 миллиона образцов SMILES, взятых из PubChem, что эквивалентно 4 миллиардам молекулярных токенов. Предложенная модель основы поддерживает различные сложные задачи, включая предсказание квантовых свойств, и обладает гибкостью с двумя основными вариантами (289M и 8times289M). Наши эксперименты на нескольких эталонных наборах данных подтверждают способность предложенной модели предоставлять передовые результаты для различных задач. Мы также предоставляем предварительную оценку композициональности пространства вложений как предпосылки для задач рассуждения. Мы демонстрируем, что полученное латентное пространство разделимо по сравнению с передовыми методами с возможностями обучения на небольшом количестве примеров.
English
Large-scale pre-training methodologies for chemical language models represent
a breakthrough in cheminformatics. These methods excel in tasks such as
property prediction and molecule generation by learning contextualized
representations of input tokens through self-supervised learning on large
unlabeled corpora. Typically, this involves pre-training on unlabeled data
followed by fine-tuning on specific tasks, reducing dependence on annotated
datasets and broadening chemical language representation understanding. This
paper introduces a large encoder-decoder chemical foundation models pre-trained
on a curated dataset of 91 million SMILES samples sourced from PubChem, which
is equivalent to 4 billion of molecular tokens. The proposed foundation model
supports different complex tasks, including quantum property prediction, and
offer flexibility with two main variants (289M and 8times289M). Our
experiments across multiple benchmark datasets validate the capacity of the
proposed model in providing state-of-the-art results for different tasks. We
also provide a preliminary assessment of the compositionality of the embedding
space as a prerequisite for the reasoning tasks. We demonstrate that the
produced latent space is separable compared to the state-of-the-art with
few-shot learning capabilities.Summary
AI-Generated Summary