ChatPaper.aiChatPaper

化学言語のための大規模エンコーダ・デコーダ基盤モデルファミリー

A Large Encoder-Decoder Family of Foundation Models For Chemical Language

July 24, 2024
著者: Eduardo Soares, Victor Shirasuna, Emilio Vital Brazil, Renato Cerqueira, Dmitry Zubarev, Kristin Schmidt
cs.AI

要旨

大規模な事前学習手法を用いた化学言語モデルは、ケモインフォマティクスにおける画期的な進展を表しています。これらの手法は、大規模な未ラベルコーパスに対する自己教師あり学習を通じて入力トークンの文脈化された表現を学習することで、物性予測や分子生成などのタスクにおいて優れた性能を発揮します。一般的に、これは未ラベルデータでの事前学習と特定タスクに対するファインチューニングを組み合わせることで、注釈付きデータセットへの依存を軽減し、化学言語表現の理解を広げます。本論文では、PubChemから収集された9100万のSMILESサンプル(40億の分子トークンに相当)を用いて事前学習された大規模なエンコーダ-デコーダ型化学基盤モデルを紹介します。提案された基盤モデルは、量子物性予測を含むさまざまな複雑なタスクをサポートし、2つの主要なバリエーション(289Mおよび8×289M)を提供することで柔軟性を実現しています。複数のベンチマークデータセットでの実験を通じて、提案モデルがさまざまなタスクにおいて最先端の結果を提供する能力を検証しました。また、推論タスクの前提条件として、埋め込み空間の構成可能性に関する予備的な評価を行いました。提案モデルが生成する潜在空間は、少ないサンプルでの学習能力を備えた最先端のモデルと比較して分離可能であることを実証しました。
English
Large-scale pre-training methodologies for chemical language models represent a breakthrough in cheminformatics. These methods excel in tasks such as property prediction and molecule generation by learning contextualized representations of input tokens through self-supervised learning on large unlabeled corpora. Typically, this involves pre-training on unlabeled data followed by fine-tuning on specific tasks, reducing dependence on annotated datasets and broadening chemical language representation understanding. This paper introduces a large encoder-decoder chemical foundation models pre-trained on a curated dataset of 91 million SMILES samples sourced from PubChem, which is equivalent to 4 billion of molecular tokens. The proposed foundation model supports different complex tasks, including quantum property prediction, and offer flexibility with two main variants (289M and 8times289M). Our experiments across multiple benchmark datasets validate the capacity of the proposed model in providing state-of-the-art results for different tasks. We also provide a preliminary assessment of the compositionality of the embedding space as a prerequisite for the reasoning tasks. We demonstrate that the produced latent space is separable compared to the state-of-the-art with few-shot learning capabilities.

Summary

AI-Generated Summary

PDF322November 28, 2024