DNAGPT: Een algemeen voorgetraind hulpmiddel voor meerdere DNA-sequentieanalyse-taken

Samenvatting

Het succes van de GPT-serie bewijst dat GPT algemene informatie uit sequenties kan extraheren, waardoor alle downstream taken baat hebben. Dit motiveert ons om vooraf getrainde modellen te gebruiken om de verborgen informatie in DNA-sequenties te verkennen. Echter, de gegevens en taakeisen in DNA-sequentieanalyse zijn complex en divers, aangezien DNA-gerelateerde gegevens verschillende soorten informatie omvatten, zoals sequenties, expressieniveaus, enz., terwijl er momenteel geen model specifiek is ontworpen voor deze kenmerken. Hierbij presenteren wij DNAGPT, een gegeneraliseerd foundation model dat vooraf is getraind op meer dan 10 miljard baseparen van 9 soorten, en dat kan worden afgestemd op elke DNA-sequentieanalyse taak. Ons model kan tegelijkertijd DNA-sequenties en getallen verwerken of uitvoeren. Bovendien stelt ons unieke tokenontwerp gebruikers in staat om prompts te ontwerpen volgens hun eigen taakeisen, waardoor het toepasbaar is op elk type taak. We hebben ons model geëvalueerd op classificatie-, regressie- en generatietaken. We tonen aan dat DNAGPT baat heeft bij voorafgaande training, en daarom prestatieverbeteringen kan brengen voor elke downstream taak. Ons model is niet alleen een nieuwe poging in het veld van genomanalyse, maar biedt ook een nieuwe richting voor de toepassing van foundation modellen in de biologie.

English

The success of the GPT series proves that GPT can extract general information from sequences, thereby benefiting all downstream tasks. This motivates us to use pre-trained models to explore the hidden information in DNA sequences. However, data and task requirements in DNA sequence analysis are complexity and diversity as DNA relevant data includes different types of information, such as sequences, expression levels, etc, while there is currently no model specifically designed for these characteristics. Hereby, we present DNAGPT, a generalized foundation model pre-trained on over 10 billion base pairs from 9 species which can be fine-tuned for any DNA sequence analysis task. Our model can simultaneously process or output DNA sequences and numbers. In addition, our unique token design allows users to design prompts according to their own task requirements, making it applicable to any type of task. We have evaluated our model on classification, regression, and generation tasks. We demonstrate that DNAGPT benefits from pre-training, and therefore can bring performance gains to any downstream task. Our model is not only a new attempt in the field of genomes analysis, but also provides a new direction for the application of foundation models in biology.

DNAGPT: Een algemeen voorgetraind hulpmiddel voor meerdere DNA-sequentieanalyse-taken

DNAGPT: A Generalized Pretrained Tool for Multiple DNA Sequence Analysis Tasks

Samenvatting

Support