화학 언어를 위한 대규모 인코더-디코더 기반 파운데이션 모델 패밀리
A Large Encoder-Decoder Family of Foundation Models For Chemical Language
July 24, 2024
저자: Eduardo Soares, Victor Shirasuna, Emilio Vital Brazil, Renato Cerqueira, Dmitry Zubarev, Kristin Schmidt
cs.AI
초록
대규모 화학 언어 모델을 위한 사전 학습 방법론은 화학정보학 분야에서 획기적인 발전을 나타냅니다. 이러한 방법들은 대규모 비주석화 코퍼스에 대한 자기 지도 학습을 통해 입력 토큰의 문맥적 표현을 학습함으로써, 물성 예측 및 분자 생성과 같은 작업에서 탁월한 성능을 발휘합니다. 일반적으로 이는 비주석화 데이터에 대한 사전 학습과 특정 작업에 대한 미세 조정을 포함하며, 이는 주석화된 데이터셋에 대한 의존도를 줄이고 화학 언어 표현에 대한 이해를 확장합니다. 본 논문은 PubChem에서 수집된 9100만 개의 SMILES 샘플(이는 40억 개의 분자 토큰에 해당)로 구성된 데이터셋에 사전 학습된 대규모 인코더-디코더 화학 기초 모델을 소개합니다. 제안된 기초 모델은 양자 물성 예측을 포함한 다양한 복잡한 작업을 지원하며, 두 가지 주요 변형(289M 및 8배 289M)을 통해 유연성을 제공합니다. 여러 벤치마크 데이터셋에 대한 실험을 통해 제안된 모델이 다양한 작업에서 최첨단 결과를 제공할 수 있는 능력을 검증합니다. 또한, 추론 작업을 위한 전제 조건으로서 임베딩 공간의 구성성에 대한 예비 평가를 제공합니다. 우리는 생성된 잠재 공간이 최신 기술과 비교하여 분리 가능하며 소수 샷 학습 능력을 갖추고 있음을 입증합니다.
English
Large-scale pre-training methodologies for chemical language models represent
a breakthrough in cheminformatics. These methods excel in tasks such as
property prediction and molecule generation by learning contextualized
representations of input tokens through self-supervised learning on large
unlabeled corpora. Typically, this involves pre-training on unlabeled data
followed by fine-tuning on specific tasks, reducing dependence on annotated
datasets and broadening chemical language representation understanding. This
paper introduces a large encoder-decoder chemical foundation models pre-trained
on a curated dataset of 91 million SMILES samples sourced from PubChem, which
is equivalent to 4 billion of molecular tokens. The proposed foundation model
supports different complex tasks, including quantum property prediction, and
offer flexibility with two main variants (289M and 8times289M). Our
experiments across multiple benchmark datasets validate the capacity of the
proposed model in providing state-of-the-art results for different tasks. We
also provide a preliminary assessment of the compositionality of the embedding
space as a prerequisite for the reasoning tasks. We demonstrate that the
produced latent space is separable compared to the state-of-the-art with
few-shot learning capabilities.Summary
AI-Generated Summary