DNAGPT: Uma Ferramenta de Pré-treinamento Generalizada para Múltiplas Tarefas de Análise de Sequências de DNA

Resumo

O sucesso da série GPT comprova que o GPT pode extrair informações gerais de sequências, beneficiando assim todas as tarefas subsequentes. Isso nos motiva a utilizar modelos pré-treinados para explorar as informações ocultas em sequências de DNA. No entanto, os requisitos de dados e tarefas na análise de sequências de DNA são complexos e diversos, já que os dados relevantes de DNA incluem diferentes tipos de informações, como sequências, níveis de expressão, entre outros, enquanto atualmente não existe um modelo especificamente projetado para essas características. Apresentamos aqui o DNAGPT, um modelo de base generalizado pré-treinado em mais de 10 bilhões de pares de bases de 9 espécies, que pode ser ajustado para qualquer tarefa de análise de sequências de DNA. Nosso modelo pode processar ou gerar simultaneamente sequências de DNA e números. Além disso, nosso design único de tokens permite que os usuários criem prompts de acordo com suas próprias necessidades de tarefa, tornando-o aplicável a qualquer tipo de tarefa. Avaliamos nosso modelo em tarefas de classificação, regressão e geração. Demonstramos que o DNAGPT se beneficia do pré-treinamento e, portanto, pode trazer ganhos de desempenho para qualquer tarefa subsequente. Nosso modelo não apenas representa uma nova tentativa no campo da análise de genomas, mas também fornece uma nova direção para a aplicação de modelos de base em biologia.

English

The success of the GPT series proves that GPT can extract general information from sequences, thereby benefiting all downstream tasks. This motivates us to use pre-trained models to explore the hidden information in DNA sequences. However, data and task requirements in DNA sequence analysis are complexity and diversity as DNA relevant data includes different types of information, such as sequences, expression levels, etc, while there is currently no model specifically designed for these characteristics. Hereby, we present DNAGPT, a generalized foundation model pre-trained on over 10 billion base pairs from 9 species which can be fine-tuned for any DNA sequence analysis task. Our model can simultaneously process or output DNA sequences and numbers. In addition, our unique token design allows users to design prompts according to their own task requirements, making it applicable to any type of task. We have evaluated our model on classification, regression, and generation tasks. We demonstrate that DNAGPT benefits from pre-training, and therefore can bring performance gains to any downstream task. Our model is not only a new attempt in the field of genomes analysis, but also provides a new direction for the application of foundation models in biology.

DNAGPT: Uma Ferramenta de Pré-treinamento Generalizada para Múltiplas Tarefas de Análise de Sequências de DNA

DNAGPT: A Generalized Pretrained Tool for Multiple DNA Sequence Analysis Tasks

Resumo

Support