DNAGPT: Универсальный предобученный инструмент для решения множества задач анализа последовательностей ДНК
DNAGPT: A Generalized Pretrained Tool for Multiple DNA Sequence Analysis Tasks
July 11, 2023
Авторы: Daoan Zhang, Weitong Zhang, Bing He, Jianguo Zhang, Chenchen Qin, Jianhua Yao
cs.AI
Аннотация
Успех серии GPT доказывает, что GPT способна извлекать общую информацию из последовательностей, тем самым принося пользу всем последующим задачам. Это мотивирует нас использовать предварительно обученные модели для исследования скрытой информации в последовательностях ДНК. Однако данные и требования задач в анализе последовательностей ДНК отличаются сложностью и разнообразием, поскольку данные, связанные с ДНК, включают различные типы информации, такие как последовательности, уровни экспрессии и т.д., в то время как в настоящее время не существует модели, специально разработанной для этих характеристик. В связи с этим мы представляем DNAGPT, обобщённую базовую модель, предварительно обученную на более чем 10 миллиардах пар оснований от 9 видов, которая может быть дообучена для любой задачи анализа последовательностей ДНК. Наша модель способна одновременно обрабатывать или выводить последовательности ДНК и числовые данные. Кроме того, наш уникальный дизайн токенов позволяет пользователям создавать промпты в соответствии с их собственными требованиями к задачам, делая модель применимой к любому типу задач. Мы оценили нашу модель на задачах классификации, регрессии и генерации. Мы демонстрируем, что DNAGPT извлекает пользу из предварительного обучения и, следовательно, может приносить улучшения производительности для любой последующей задачи. Наша модель представляет собой не только новую попытку в области анализа геномов, но и открывает новое направление для применения базовых моделей в биологии.
English
The success of the GPT series proves that GPT can extract general information
from sequences, thereby benefiting all downstream tasks. This motivates us to
use pre-trained models to explore the hidden information in DNA sequences.
However, data and task requirements in DNA sequence analysis are complexity and
diversity as DNA relevant data includes different types of information, such as
sequences, expression levels, etc, while there is currently no model
specifically designed for these characteristics. Hereby, we present DNAGPT, a
generalized foundation model pre-trained on over 10 billion base pairs from 9
species which can be fine-tuned for any DNA sequence analysis task. Our model
can simultaneously process or output DNA sequences and numbers. In addition,
our unique token design allows users to design prompts according to their own
task requirements, making it applicable to any type of task. We have evaluated
our model on classification, regression, and generation tasks. We demonstrate
that DNAGPT benefits from pre-training, and therefore can bring performance
gains to any downstream task. Our model is not only a new attempt in the field
of genomes analysis, but also provides a new direction for the application of
foundation models in biology.