Une grande famille de modèles encodeur-décodeur de base pour le langage chimique
A Large Encoder-Decoder Family of Foundation Models For Chemical Language
July 24, 2024
Auteurs: Eduardo Soares, Victor Shirasuna, Emilio Vital Brazil, Renato Cerqueira, Dmitry Zubarev, Kristin Schmidt
cs.AI
Résumé
Les méthodologies de pré-entraînement à grande échelle pour les modèles de langage chimique représentent une avancée majeure en chémoinformatique. Ces méthodes excellent dans des tâches telles que la prédiction de propriétés et la génération de molécules en apprenant des représentations contextualisées des tokens d'entrée grâce à l'apprentissage auto-supervisé sur de grands corpus non annotés. Typiquement, cela implique un pré-entraînement sur des données non annotées suivi d'un ajustement fin sur des tâches spécifiques, réduisant ainsi la dépendance aux ensembles de données annotés et élargissant la compréhension des représentations du langage chimique. Cet article présente un grand modèle de fondation chimique de type encodeur-décodeur pré-entraîné sur un ensemble de données soigneusement sélectionné de 91 millions d'échantillons SMILES provenant de PubChem, ce qui équivaut à 4 milliards de tokens moléculaires. Le modèle de fondation proposé prend en charge différentes tâches complexes, y compris la prédiction de propriétés quantiques, et offre une flexibilité avec deux variantes principales (289M et 8×289M). Nos expériences sur plusieurs ensembles de données de référence valident la capacité du modèle proposé à fournir des résultats de pointe pour différentes tâches. Nous fournissons également une évaluation préliminaire de la compositionnalité de l'espace d'embedding comme prérequis pour les tâches de raisonnement. Nous démontrons que l'espace latent produit est séparable par rapport à l'état de l'art avec des capacités d'apprentissage en few-shot.
English
Large-scale pre-training methodologies for chemical language models represent
a breakthrough in cheminformatics. These methods excel in tasks such as
property prediction and molecule generation by learning contextualized
representations of input tokens through self-supervised learning on large
unlabeled corpora. Typically, this involves pre-training on unlabeled data
followed by fine-tuning on specific tasks, reducing dependence on annotated
datasets and broadening chemical language representation understanding. This
paper introduces a large encoder-decoder chemical foundation models pre-trained
on a curated dataset of 91 million SMILES samples sourced from PubChem, which
is equivalent to 4 billion of molecular tokens. The proposed foundation model
supports different complex tasks, including quantum property prediction, and
offer flexibility with two main variants (289M and 8times289M). Our
experiments across multiple benchmark datasets validate the capacity of the
proposed model in providing state-of-the-art results for different tasks. We
also provide a preliminary assessment of the compositionality of the embedding
space as a prerequisite for the reasoning tasks. We demonstrate that the
produced latent space is separable compared to the state-of-the-art with
few-shot learning capabilities.Summary
AI-Generated Summary