ChatPaper.aiChatPaper

DNAGPT : Un outil de prétraitement généralisé pour les tâches d'analyse de séquences ADN multiples

DNAGPT: A Generalized Pretrained Tool for Multiple DNA Sequence Analysis Tasks

July 11, 2023
Auteurs: Daoan Zhang, Weitong Zhang, Bing He, Jianguo Zhang, Chenchen Qin, Jianhua Yao
cs.AI

Résumé

Le succès de la série GPT démontre que GPT peut extraire des informations générales à partir de séquences, bénéficiant ainsi à toutes les tâches en aval. Cela nous motive à utiliser des modèles pré-entraînés pour explorer les informations cachées dans les séquences d'ADN. Cependant, les exigences en matière de données et de tâches dans l'analyse des séquences d'ADN sont complexes et diversifiées, car les données relatives à l'ADN incluent différents types d'informations, telles que les séquences, les niveaux d'expression, etc., alors qu'il n'existe actuellement aucun modèle spécifiquement conçu pour ces caractéristiques. Nous présentons ici DNAGPT, un modèle de fondation généralisé pré-entraîné sur plus de 10 milliards de paires de bases provenant de 9 espèces, qui peut être affiné pour toute tâche d'analyse de séquences d'ADN. Notre modèle peut simultanément traiter ou produire des séquences d'ADN et des nombres. De plus, notre conception unique de tokens permet aux utilisateurs de concevoir des prompts selon leurs propres exigences de tâche, le rendant applicable à tout type de tâche. Nous avons évalué notre modèle sur des tâches de classification, de régression et de génération. Nous démontrons que DNAGPT bénéficie du pré-entraînement et peut ainsi apporter des gains de performance à toute tâche en aval. Notre modèle constitue non seulement une nouvelle tentative dans le domaine de l'analyse des génomes, mais offre également une nouvelle direction pour l'application des modèles de fondation en biologie.
English
The success of the GPT series proves that GPT can extract general information from sequences, thereby benefiting all downstream tasks. This motivates us to use pre-trained models to explore the hidden information in DNA sequences. However, data and task requirements in DNA sequence analysis are complexity and diversity as DNA relevant data includes different types of information, such as sequences, expression levels, etc, while there is currently no model specifically designed for these characteristics. Hereby, we present DNAGPT, a generalized foundation model pre-trained on over 10 billion base pairs from 9 species which can be fine-tuned for any DNA sequence analysis task. Our model can simultaneously process or output DNA sequences and numbers. In addition, our unique token design allows users to design prompts according to their own task requirements, making it applicable to any type of task. We have evaluated our model on classification, regression, and generation tasks. We demonstrate that DNAGPT benefits from pre-training, and therefore can bring performance gains to any downstream task. Our model is not only a new attempt in the field of genomes analysis, but also provides a new direction for the application of foundation models in biology.
PDF100December 15, 2024