DNAGPT: Ein generalisiertes vortrainiertes Werkzeug für multiple DNA-Sequenzanalysen
DNAGPT: A Generalized Pretrained Tool for Multiple DNA Sequence Analysis Tasks
July 11, 2023
Autoren: Daoan Zhang, Weitong Zhang, Bing He, Jianguo Zhang, Chenchen Qin, Jianhua Yao
cs.AI
Zusammenfassung
Der Erfolg der GPT-Serie beweist, dass GPT allgemeine Informationen aus Sequenzen extrahieren kann, wodurch alle nachgelagerten Aufgaben profitieren. Dies motiviert uns, vortrainierte Modelle zu verwenden, um die verborgenen Informationen in DNA-Sequenzen zu erforschen. Allerdings sind die Daten- und Aufgabenanforderungen in der DNA-Sequenzanalyse komplex und vielfältig, da DNA-relevante Daten verschiedene Arten von Informationen umfassen, wie Sequenzen, Expressionsniveaus usw., während es derzeit kein speziell für diese Merkmale entwickeltes Modell gibt. Daher präsentieren wir DNAGPT, ein generalisiertes Foundation-Modell, das auf über 10 Milliarden Basenpaaren von 9 Arten vortrainiert wurde und für jede DNA-Sequenzanalyseaufgabe feinabgestimmt werden kann. Unser Modell kann gleichzeitig DNA-Sequenzen und Zahlen verarbeiten oder ausgeben. Darüber hinaus ermöglicht unser einzigartiges Token-Design den Benutzern, Prompts gemäß ihren eigenen Aufgabenanforderungen zu gestalten, wodurch es für jede Art von Aufgabe anwendbar ist. Wir haben unser Modell auf Klassifizierungs-, Regressions- und Generierungsaufgaben evaluiert. Wir zeigen, dass DNAGPT vom Vortraining profitiert und somit Leistungssteigerungen für jede nachgelagerte Aufgabe bringen kann. Unser Modell ist nicht nur ein neuer Versuch im Bereich der Genomanalyse, sondern bietet auch eine neue Richtung für die Anwendung von Foundation-Modellen in der Biologie.
English
The success of the GPT series proves that GPT can extract general information
from sequences, thereby benefiting all downstream tasks. This motivates us to
use pre-trained models to explore the hidden information in DNA sequences.
However, data and task requirements in DNA sequence analysis are complexity and
diversity as DNA relevant data includes different types of information, such as
sequences, expression levels, etc, while there is currently no model
specifically designed for these characteristics. Hereby, we present DNAGPT, a
generalized foundation model pre-trained on over 10 billion base pairs from 9
species which can be fine-tuned for any DNA sequence analysis task. Our model
can simultaneously process or output DNA sequences and numbers. In addition,
our unique token design allows users to design prompts according to their own
task requirements, making it applicable to any type of task. We have evaluated
our model on classification, regression, and generation tasks. We demonstrate
that DNAGPT benefits from pre-training, and therefore can bring performance
gains to any downstream task. Our model is not only a new attempt in the field
of genomes analysis, but also provides a new direction for the application of
foundation models in biology.