ChatPaper.aiChatPaper

Uma Grande Família de Modelos Fundamentais Codificador-Decodificador para Linguagem Química

A Large Encoder-Decoder Family of Foundation Models For Chemical Language

July 24, 2024
Autores: Eduardo Soares, Victor Shirasuna, Emilio Vital Brazil, Renato Cerqueira, Dmitry Zubarev, Kristin Schmidt
cs.AI

Resumo

Metodologias de pré-treinamento em larga escala para modelos de linguagem química representam um avanço na quimioinformática. Esses métodos se destacam em tarefas como previsão de propriedades e geração de moléculas ao aprender representações contextualizadas de tokens de entrada por meio de aprendizado auto-supervisionado em grandes corpora não rotulados. Tipicamente, isso envolve pré-treinamento em dados não rotulados seguido por ajustes finos em tarefas específicas, reduzindo a dependência de conjuntos de dados anotados e ampliando a compreensão da representação da linguagem química. Este artigo apresenta modelos de base química codificador-decodificador em larga escala pré-treinados em um conjunto de dados curado de 91 milhões de amostras SMILES obtidas do PubChem, equivalente a 4 bilhões de tokens moleculares. O modelo de base proposto suporta diferentes tarefas complexas, incluindo previsão de propriedades quânticas, e oferece flexibilidade com duas variantes principais (289M e 8vezes289M). Nossos experimentos em múltiplos conjuntos de dados de referência validam a capacidade do modelo proposto em fornecer resultados de ponta para diferentes tarefas. Também fornecemos uma avaliação preliminar da composicionalidade do espaço de incorporação como um pré-requisito para as tarefas de raciocínio. Demonstramos que o espaço latente produzido é separável em comparação com o estado da arte, com capacidades de aprendizado com poucas amostras.
English
Large-scale pre-training methodologies for chemical language models represent a breakthrough in cheminformatics. These methods excel in tasks such as property prediction and molecule generation by learning contextualized representations of input tokens through self-supervised learning on large unlabeled corpora. Typically, this involves pre-training on unlabeled data followed by fine-tuning on specific tasks, reducing dependence on annotated datasets and broadening chemical language representation understanding. This paper introduces a large encoder-decoder chemical foundation models pre-trained on a curated dataset of 91 million SMILES samples sourced from PubChem, which is equivalent to 4 billion of molecular tokens. The proposed foundation model supports different complex tasks, including quantum property prediction, and offer flexibility with two main variants (289M and 8times289M). Our experiments across multiple benchmark datasets validate the capacity of the proposed model in providing state-of-the-art results for different tasks. We also provide a preliminary assessment of the compositionality of the embedding space as a prerequisite for the reasoning tasks. We demonstrate that the produced latent space is separable compared to the state-of-the-art with few-shot learning capabilities.

Summary

AI-Generated Summary

PDF322November 28, 2024