ChatPaper.aiChatPaper

DNAGPT: Una herramienta preentrenada generalizada para múltiples tareas de análisis de secuencias de ADN

DNAGPT: A Generalized Pretrained Tool for Multiple DNA Sequence Analysis Tasks

July 11, 2023
Autores: Daoan Zhang, Weitong Zhang, Bing He, Jianguo Zhang, Chenchen Qin, Jianhua Yao
cs.AI

Resumen

El éxito de la serie GPT demuestra que GPT puede extraer información general de secuencias, beneficiando así todas las tareas posteriores. Esto nos motiva a utilizar modelos preentrenados para explorar la información oculta en las secuencias de ADN. Sin embargo, los requisitos de datos y tareas en el análisis de secuencias de ADN son complejos y diversos, ya que los datos relevantes de ADN incluyen diferentes tipos de información, como secuencias, niveles de expresión, etc., mientras que actualmente no existe un modelo diseñado específicamente para estas características. Por ello, presentamos DNAGPT, un modelo base generalizado preentrenado en más de 10 mil millones de pares de bases de 9 especies, que puede ajustarse para cualquier tarea de análisis de secuencias de ADN. Nuestro modelo puede procesar o generar simultáneamente secuencias de ADN y números. Además, nuestro diseño único de tokens permite a los usuarios diseñar instrucciones según sus propios requisitos de tarea, haciéndolo aplicable a cualquier tipo de tarea. Hemos evaluado nuestro modelo en tareas de clasificación, regresión y generación. Demostramos que DNAGPT se beneficia del preentrenamiento y, por lo tanto, puede aportar mejoras de rendimiento a cualquier tarea posterior. Nuestro modelo no solo es un nuevo intento en el campo del análisis de genomas, sino que también proporciona una nueva dirección para la aplicación de modelos base en biología.
English
The success of the GPT series proves that GPT can extract general information from sequences, thereby benefiting all downstream tasks. This motivates us to use pre-trained models to explore the hidden information in DNA sequences. However, data and task requirements in DNA sequence analysis are complexity and diversity as DNA relevant data includes different types of information, such as sequences, expression levels, etc, while there is currently no model specifically designed for these characteristics. Hereby, we present DNAGPT, a generalized foundation model pre-trained on over 10 billion base pairs from 9 species which can be fine-tuned for any DNA sequence analysis task. Our model can simultaneously process or output DNA sequences and numbers. In addition, our unique token design allows users to design prompts according to their own task requirements, making it applicable to any type of task. We have evaluated our model on classification, regression, and generation tasks. We demonstrate that DNAGPT benefits from pre-training, and therefore can bring performance gains to any downstream task. Our model is not only a new attempt in the field of genomes analysis, but also provides a new direction for the application of foundation models in biology.
PDF100December 15, 2024