DNAGPT: 다양한 DNA 시퀀스 분석 작업을 위한 일반화된 사전 학습 도구
DNAGPT: A Generalized Pretrained Tool for Multiple DNA Sequence Analysis Tasks
July 11, 2023
저자: Daoan Zhang, Weitong Zhang, Bing He, Jianguo Zhang, Chenchen Qin, Jianhua Yao
cs.AI
초록
GPT 시리즈의 성공은 GPT가 시퀀스로부터 일반적인 정보를 추출할 수 있으며, 이를 통해 모든 하위 작업에 이점을 제공할 수 있음을 입증합니다. 이는 우리가 사전 훈련된 모델을 사용하여 DNA 시퀀스에 숨겨진 정보를 탐구하도록 동기를 부여합니다. 그러나 DNA 시퀀스 분석에서의 데이터와 작업 요구 사항은 복잡성과 다양성을 띱니다. DNA 관련 데이터에는 시퀀스, 발현 수준 등 다양한 유형의 정보가 포함되어 있지만, 이러한 특성을 위해 특별히 설계된 모델은 현재 존재하지 않습니다. 이에 우리는 9종의 100억 개 이상의 염기쌍으로 사전 훈련된 일반화된 기초 모델인 DNAGPT를 제안합니다. 이 모델은 모든 DNA 시퀀스 분석 작업에 맞게 미세 조정될 수 있습니다. 우리의 모델은 DNA 시퀀스와 숫자를 동시에 처리하거나 출력할 수 있습니다. 또한, 우리의 독특한 토큰 설계는 사용자가 자신의 작업 요구 사항에 따라 프롬프트를 설계할 수 있게 하여 모든 유형의 작업에 적용 가능하게 합니다. 우리는 분류, 회귀, 생성 작업에서 모델을 평가했습니다. 우리는 DNAGPT가 사전 훈련으로부터 이점을 얻으며, 따라서 모든 하위 작업에 성능 향상을 가져올 수 있음을 입증합니다. 우리의 모델은 유전체 분석 분야에서의 새로운 시도일 뿐만 아니라, 생물학에서 기초 모델의 응용에 새로운 방향을 제시합니다.
English
The success of the GPT series proves that GPT can extract general information
from sequences, thereby benefiting all downstream tasks. This motivates us to
use pre-trained models to explore the hidden information in DNA sequences.
However, data and task requirements in DNA sequence analysis are complexity and
diversity as DNA relevant data includes different types of information, such as
sequences, expression levels, etc, while there is currently no model
specifically designed for these characteristics. Hereby, we present DNAGPT, a
generalized foundation model pre-trained on over 10 billion base pairs from 9
species which can be fine-tuned for any DNA sequence analysis task. Our model
can simultaneously process or output DNA sequences and numbers. In addition,
our unique token design allows users to design prompts according to their own
task requirements, making it applicable to any type of task. We have evaluated
our model on classification, regression, and generation tasks. We demonstrate
that DNAGPT benefits from pre-training, and therefore can bring performance
gains to any downstream task. Our model is not only a new attempt in the field
of genomes analysis, but also provides a new direction for the application of
foundation models in biology.