Een grote familie van encoder-decoder foundation-modellen voor chemische taal
A Large Encoder-Decoder Family of Foundation Models For Chemical Language
July 24, 2024
Auteurs: Eduardo Soares, Victor Shirasuna, Emilio Vital Brazil, Renato Cerqueira, Dmitry Zubarev, Kristin Schmidt
cs.AI
Samenvatting
Grootschalige voorafgaande trainingsmethodologieën voor chemische taalmodellen vertegenwoordigen een doorbraak in de cheminformatica. Deze methoden blinken uit in taken zoals eigenschapsvoorspelling en molecuulgeneratie door middel van het leren van gecontextualiseerde representaties van invoertokens via zelfsupervisie op grote ongeannoteerde corpora. Typisch omvat dit voorafgaande training op ongeannoteerde gegevens, gevolgd door fine-tuning op specifieke taken, wat de afhankelijkheid van geannoteerde datasets vermindert en het begrip van chemische taalrepresentatie verbreedt. Dit artikel introduceert een groot encoder-decoder chemisch basis model dat vooraf is getraind op een gecureerde dataset van 91 miljoen SMILES-voorbeelden afkomstig uit PubChem, wat overeenkomt met 4 miljard moleculaire tokens. Het voorgestelde basis model ondersteunt verschillende complexe taken, waaronder kwantumeigenschapsvoorspelling, en biedt flexibiliteit met twee hoofdvarianten (289M en 8x289M). Onze experimenten op meerdere benchmarkdatasets valideren de capaciteit van het voorgestelde model om state-of-the-art resultaten te leveren voor verschillende taken. We bieden ook een voorlopige beoordeling van de compositionaliteit van de embeddingruimte als een voorwaarde voor redeneertaken. We tonen aan dat de geproduceerde latente ruimte scheidbaar is in vergelijking met de state-of-the-art, met mogelijkheden voor few-shot learning.
English
Large-scale pre-training methodologies for chemical language models represent
a breakthrough in cheminformatics. These methods excel in tasks such as
property prediction and molecule generation by learning contextualized
representations of input tokens through self-supervised learning on large
unlabeled corpora. Typically, this involves pre-training on unlabeled data
followed by fine-tuning on specific tasks, reducing dependence on annotated
datasets and broadening chemical language representation understanding. This
paper introduces a large encoder-decoder chemical foundation models pre-trained
on a curated dataset of 91 million SMILES samples sourced from PubChem, which
is equivalent to 4 billion of molecular tokens. The proposed foundation model
supports different complex tasks, including quantum property prediction, and
offer flexibility with two main variants (289M and 8times289M). Our
experiments across multiple benchmark datasets validate the capacity of the
proposed model in providing state-of-the-art results for different tasks. We
also provide a preliminary assessment of the compositionality of the embedding
space as a prerequisite for the reasoning tasks. We demonstrate that the
produced latent space is separable compared to the state-of-the-art with
few-shot learning capabilities.