DNAGPT: Uno strumento preaddestrato generalizzato per l'analisi di sequenze di DNA multiple
DNAGPT: A Generalized Pretrained Tool for Multiple DNA Sequence Analysis Tasks
July 11, 2023
Autori: Daoan Zhang, Weitong Zhang, Bing He, Jianguo Zhang, Chenchen Qin, Jianhua Yao
cs.AI
Abstract
Il successo della serie GPT dimostra che GPT è in grado di estrarre informazioni generali dalle sequenze, apportando così benefici a tutti i task downstream. Questo ci motiva a utilizzare modelli pre-addestrati per esplorare le informazioni nascoste nelle sequenze di DNA. Tuttavia, i requisiti di dati e task nell'analisi delle sequenze di DNA sono complessi e diversificati, poiché i dati relativi al DNA includono diversi tipi di informazioni, come sequenze, livelli di espressione, ecc., mentre attualmente non esiste un modello specificamente progettato per queste caratteristiche. Presentiamo quindi DNAGPT, un modello fondazionale generalizzato pre-addestrato su oltre 10 miliardi di coppie di basi provenienti da 9 specie, che può essere fine-tuned per qualsiasi task di analisi delle sequenze di DNA. Il nostro modello è in grado di elaborare o produrre simultaneamente sequenze di DNA e numeri. Inoltre, il nostro design unico dei token consente agli utenti di progettare prompt in base alle proprie esigenze di task, rendendolo applicabile a qualsiasi tipo di task. Abbiamo valutato il nostro modello su task di classificazione, regressione e generazione. Dimostriamo che DNAGPT beneficia del pre-addestramento e può quindi apportare miglioramenti delle prestazioni a qualsiasi task downstream. Il nostro modello non è solo un nuovo tentativo nel campo dell'analisi dei genomi, ma fornisce anche una nuova direzione per l'applicazione dei modelli fondazionali in biologia.
English
The success of the GPT series proves that GPT can extract general information
from sequences, thereby benefiting all downstream tasks. This motivates us to
use pre-trained models to explore the hidden information in DNA sequences.
However, data and task requirements in DNA sequence analysis are complexity and
diversity as DNA relevant data includes different types of information, such as
sequences, expression levels, etc, while there is currently no model
specifically designed for these characteristics. Hereby, we present DNAGPT, a
generalized foundation model pre-trained on over 10 billion base pairs from 9
species which can be fine-tuned for any DNA sequence analysis task. Our model
can simultaneously process or output DNA sequences and numbers. In addition,
our unique token design allows users to design prompts according to their own
task requirements, making it applicable to any type of task. We have evaluated
our model on classification, regression, and generation tasks. We demonstrate
that DNAGPT benefits from pre-training, and therefore can bring performance
gains to any downstream task. Our model is not only a new attempt in the field
of genomes analysis, but also provides a new direction for the application of
foundation models in biology.