ChatPaper.aiChatPaper

Una amplia familia de modelos base codificador-decodificador para el lenguaje químico.

A Large Encoder-Decoder Family of Foundation Models For Chemical Language

July 24, 2024
Autores: Eduardo Soares, Victor Shirasuna, Emilio Vital Brazil, Renato Cerqueira, Dmitry Zubarev, Kristin Schmidt
cs.AI

Resumen

Las metodologías de pre-entrenamiento a gran escala para modelos de lenguaje químico representan un avance en quimioinformática. Estos métodos sobresalen en tareas como la predicción de propiedades y la generación de moléculas al aprender representaciones contextualizadas de tokens de entrada a través de aprendizaje auto-supervisado en grandes corpora no etiquetados. Típicamente, esto implica pre-entrenamiento en datos no etiquetados seguido de ajuste fino en tareas específicas, reduciendo la dependencia en conjuntos de datos anotados y ampliando la comprensión de la representación del lenguaje químico. Este artículo introduce modelos de base química codificador-decodificador pre-entrenados a gran escala en un conjunto de datos curado de 91 millones de muestras SMILES obtenidas de PubChem, equivalente a 4 mil millones de tokens moleculares. El modelo de base propuesto soporta diferentes tareas complejas, incluyendo la predicción de propiedades cuánticas, y ofrece flexibilidad con dos variantes principales (289M y 8veces289M). Nuestros experimentos en múltiples conjuntos de datos de referencia validan la capacidad del modelo propuesto para proporcionar resultados de vanguardia en diferentes tareas. También proporcionamos una evaluación preliminar de la composicionalidad del espacio de incrustación como requisito previo para las tareas de razonamiento. Demostramos que el espacio latente producido es separable en comparación con el estado del arte con capacidades de aprendizaje con pocas muestras.
English
Large-scale pre-training methodologies for chemical language models represent a breakthrough in cheminformatics. These methods excel in tasks such as property prediction and molecule generation by learning contextualized representations of input tokens through self-supervised learning on large unlabeled corpora. Typically, this involves pre-training on unlabeled data followed by fine-tuning on specific tasks, reducing dependence on annotated datasets and broadening chemical language representation understanding. This paper introduces a large encoder-decoder chemical foundation models pre-trained on a curated dataset of 91 million SMILES samples sourced from PubChem, which is equivalent to 4 billion of molecular tokens. The proposed foundation model supports different complex tasks, including quantum property prediction, and offer flexibility with two main variants (289M and 8times289M). Our experiments across multiple benchmark datasets validate the capacity of the proposed model in providing state-of-the-art results for different tasks. We also provide a preliminary assessment of the compositionality of the embedding space as a prerequisite for the reasoning tasks. We demonstrate that the produced latent space is separable compared to the state-of-the-art with few-shot learning capabilities.

Summary

AI-Generated Summary

PDF322November 28, 2024