Eine große Familie von Encoder-Decoder-Grundlagenmodellen für die chemische Sprache
A Large Encoder-Decoder Family of Foundation Models For Chemical Language
July 24, 2024
Autoren: Eduardo Soares, Victor Shirasuna, Emilio Vital Brazil, Renato Cerqueira, Dmitry Zubarev, Kristin Schmidt
cs.AI
Zusammenfassung
Groß angelegte Vortrainierungsmethoden für chemische Sprachmodelle stellen einen Durchbruch in der Chemoinformatik dar. Diese Methoden zeichnen sich in Aufgaben wie Eigenschaftsvorhersage und Molekülerzeugung aus, indem sie kontextualisierte Repräsentationen von Eingabe-Token durch selbstüberwachtes Lernen auf großen unbeschrifteten Korpora erlernen. Typischerweise beinhaltet dies eine Vortrainierung auf unbeschrifteten Daten, gefolgt von Feinabstimmung auf spezifische Aufgaben, was die Abhängigkeit von annotierten Datensätzen verringert und das Verständnis der chemischen Sprache erweitert. Dieser Artikel stellt große Encoder-Decoder-Chemie-Grundlagenmodelle vor, die auf einem kuratierten Datensatz von 91 Millionen SMILES-Proben aus PubChem vortrainiert sind, was 4 Milliarden Molekül-Token entspricht. Das vorgeschlagene Grundlagenmodell unterstützt verschiedene komplexe Aufgaben, einschließlich quantitativer Eigenschaftsvorhersage, und bietet Flexibilität mit zwei Hauptvarianten (289M und 8mal289M). Unsere Experimente über mehrere Benchmark-Datensätze bestätigen die Leistungsfähigkeit des vorgeschlagenen Modells bei der Bereitstellung erstklassiger Ergebnisse für verschiedene Aufgaben. Wir liefern auch eine vorläufige Bewertung der Kompositionsstruktur des Einbettungsraums als Voraussetzung für die Schlussfolgerungsaufgaben. Wir zeigen, dass der erzeugte latente Raum im Vergleich zum Stand der Technik separierbar ist und über Fähigkeiten zum Lernen mit wenigen Beispielen verfügt.
English
Large-scale pre-training methodologies for chemical language models represent
a breakthrough in cheminformatics. These methods excel in tasks such as
property prediction and molecule generation by learning contextualized
representations of input tokens through self-supervised learning on large
unlabeled corpora. Typically, this involves pre-training on unlabeled data
followed by fine-tuning on specific tasks, reducing dependence on annotated
datasets and broadening chemical language representation understanding. This
paper introduces a large encoder-decoder chemical foundation models pre-trained
on a curated dataset of 91 million SMILES samples sourced from PubChem, which
is equivalent to 4 billion of molecular tokens. The proposed foundation model
supports different complex tasks, including quantum property prediction, and
offer flexibility with two main variants (289M and 8times289M). Our
experiments across multiple benchmark datasets validate the capacity of the
proposed model in providing state-of-the-art results for different tasks. We
also provide a preliminary assessment of the compositionality of the embedding
space as a prerequisite for the reasoning tasks. We demonstrate that the
produced latent space is separable compared to the state-of-the-art with
few-shot learning capabilities.Summary
AI-Generated Summary