ChatPaper.aiChatPaper

Una Grande Famiglia di Modelli Fondamentali Encoder-Decoder per il Linguaggio Chimico

A Large Encoder-Decoder Family of Foundation Models For Chemical Language

July 24, 2024
Autori: Eduardo Soares, Victor Shirasuna, Emilio Vital Brazil, Renato Cerqueira, Dmitry Zubarev, Kristin Schmidt
cs.AI

Abstract

Le metodologie di pre-addestramento su larga scala per i modelli linguistici chimici rappresentano una svolta nel campo della chemioinformatica. Questi metodi eccellono in compiti come la previsione delle proprietà e la generazione di molecole, apprendendo rappresentazioni contestualizzate dei token di input attraverso l'apprendimento auto-supervisionato su grandi corpora non etichettati. Tipicamente, ciò comporta un pre-addestramento su dati non etichettati seguito da un fine-tuning su compiti specifici, riducendo la dipendenza da dataset annotati e ampliando la comprensione della rappresentazione del linguaggio chimico. Questo articolo introduce un grande modello chimico di tipo encoder-decoder pre-addestrato su un dataset curato di 91 milioni di campioni SMILES provenienti da PubChem, equivalente a 4 miliardi di token molecolari. Il modello di base proposto supporta diversi compiti complessi, inclusa la previsione di proprietà quantistiche, e offre flessibilità con due varianti principali (289M e 8×289M). I nostri esperimenti su più dataset di benchmark convalidano la capacità del modello proposto di fornire risultati all'avanguardia per diversi compiti. Forniamo inoltre una valutazione preliminare della composizionalità dello spazio di embedding come prerequisito per i compiti di ragionamento. Dimostriamo che lo spazio latente prodotto è separabile rispetto allo stato dell'arte, con capacità di apprendimento few-shot.
English
Large-scale pre-training methodologies for chemical language models represent a breakthrough in cheminformatics. These methods excel in tasks such as property prediction and molecule generation by learning contextualized representations of input tokens through self-supervised learning on large unlabeled corpora. Typically, this involves pre-training on unlabeled data followed by fine-tuning on specific tasks, reducing dependence on annotated datasets and broadening chemical language representation understanding. This paper introduces a large encoder-decoder chemical foundation models pre-trained on a curated dataset of 91 million SMILES samples sourced from PubChem, which is equivalent to 4 billion of molecular tokens. The proposed foundation model supports different complex tasks, including quantum property prediction, and offer flexibility with two main variants (289M and 8times289M). Our experiments across multiple benchmark datasets validate the capacity of the proposed model in providing state-of-the-art results for different tasks. We also provide a preliminary assessment of the compositionality of the embedding space as a prerequisite for the reasoning tasks. We demonstrate that the produced latent space is separable compared to the state-of-the-art with few-shot learning capabilities.
PDF322November 28, 2024