DNAGPT: Uno strumento preaddestrato generalizzato per l'analisi di sequenze di DNA multiple

Abstract

Il successo della serie GPT dimostra che GPT è in grado di estrarre informazioni generali dalle sequenze, apportando così benefici a tutti i task downstream. Questo ci motiva a utilizzare modelli pre-addestrati per esplorare le informazioni nascoste nelle sequenze di DNA. Tuttavia, i requisiti di dati e task nell'analisi delle sequenze di DNA sono complessi e diversificati, poiché i dati relativi al DNA includono diversi tipi di informazioni, come sequenze, livelli di espressione, ecc., mentre attualmente non esiste un modello specificamente progettato per queste caratteristiche. Presentiamo quindi DNAGPT, un modello fondazionale generalizzato pre-addestrato su oltre 10 miliardi di coppie di basi provenienti da 9 specie, che può essere fine-tuned per qualsiasi task di analisi delle sequenze di DNA. Il nostro modello è in grado di elaborare o produrre simultaneamente sequenze di DNA e numeri. Inoltre, il nostro design unico dei token consente agli utenti di progettare prompt in base alle proprie esigenze di task, rendendolo applicabile a qualsiasi tipo di task. Abbiamo valutato il nostro modello su task di classificazione, regressione e generazione. Dimostriamo che DNAGPT beneficia del pre-addestramento e può quindi apportare miglioramenti delle prestazioni a qualsiasi task downstream. Il nostro modello non è solo un nuovo tentativo nel campo dell'analisi dei genomi, ma fornisce anche una nuova direzione per l'applicazione dei modelli fondazionali in biologia.

English

The success of the GPT series proves that GPT can extract general information from sequences, thereby benefiting all downstream tasks. This motivates us to use pre-trained models to explore the hidden information in DNA sequences. However, data and task requirements in DNA sequence analysis are complexity and diversity as DNA relevant data includes different types of information, such as sequences, expression levels, etc, while there is currently no model specifically designed for these characteristics. Hereby, we present DNAGPT, a generalized foundation model pre-trained on over 10 billion base pairs from 9 species which can be fine-tuned for any DNA sequence analysis task. Our model can simultaneously process or output DNA sequences and numbers. In addition, our unique token design allows users to design prompts according to their own task requirements, making it applicable to any type of task. We have evaluated our model on classification, regression, and generation tasks. We demonstrate that DNAGPT benefits from pre-training, and therefore can bring performance gains to any downstream task. Our model is not only a new attempt in the field of genomes analysis, but also provides a new direction for the application of foundation models in biology.

DNAGPT: Uno strumento preaddestrato generalizzato per l'analisi di sequenze di DNA multiple

DNAGPT: A Generalized Pretrained Tool for Multiple DNA Sequence Analysis Tasks

Abstract

Support