DNAGPT: Een algemeen voorgetraind hulpmiddel voor meerdere DNA-sequentieanalyse-taken
DNAGPT: A Generalized Pretrained Tool for Multiple DNA Sequence Analysis Tasks
July 11, 2023
Auteurs: Daoan Zhang, Weitong Zhang, Bing He, Jianguo Zhang, Chenchen Qin, Jianhua Yao
cs.AI
Samenvatting
Het succes van de GPT-serie bewijst dat GPT algemene informatie uit sequenties kan extraheren, waardoor alle downstream taken baat hebben. Dit motiveert ons om vooraf getrainde modellen te gebruiken om de verborgen informatie in DNA-sequenties te verkennen. Echter, de gegevens en taakeisen in DNA-sequentieanalyse zijn complex en divers, aangezien DNA-gerelateerde gegevens verschillende soorten informatie omvatten, zoals sequenties, expressieniveaus, enz., terwijl er momenteel geen model specifiek is ontworpen voor deze kenmerken. Hierbij presenteren wij DNAGPT, een gegeneraliseerd foundation model dat vooraf is getraind op meer dan 10 miljard baseparen van 9 soorten, en dat kan worden afgestemd op elke DNA-sequentieanalyse taak. Ons model kan tegelijkertijd DNA-sequenties en getallen verwerken of uitvoeren. Bovendien stelt ons unieke tokenontwerp gebruikers in staat om prompts te ontwerpen volgens hun eigen taakeisen, waardoor het toepasbaar is op elk type taak. We hebben ons model geëvalueerd op classificatie-, regressie- en generatietaken. We tonen aan dat DNAGPT baat heeft bij voorafgaande training, en daarom prestatieverbeteringen kan brengen voor elke downstream taak. Ons model is niet alleen een nieuwe poging in het veld van genomanalyse, maar biedt ook een nieuwe richting voor de toepassing van foundation modellen in de biologie.
English
The success of the GPT series proves that GPT can extract general information
from sequences, thereby benefiting all downstream tasks. This motivates us to
use pre-trained models to explore the hidden information in DNA sequences.
However, data and task requirements in DNA sequence analysis are complexity and
diversity as DNA relevant data includes different types of information, such as
sequences, expression levels, etc, while there is currently no model
specifically designed for these characteristics. Hereby, we present DNAGPT, a
generalized foundation model pre-trained on over 10 billion base pairs from 9
species which can be fine-tuned for any DNA sequence analysis task. Our model
can simultaneously process or output DNA sequences and numbers. In addition,
our unique token design allows users to design prompts according to their own
task requirements, making it applicable to any type of task. We have evaluated
our model on classification, regression, and generation tasks. We demonstrate
that DNAGPT benefits from pre-training, and therefore can bring performance
gains to any downstream task. Our model is not only a new attempt in the field
of genomes analysis, but also provides a new direction for the application of
foundation models in biology.