DNAGPT: Универсальный предобученный инструмент для решения множества задач анализа последовательностей ДНК

Аннотация

Успех серии GPT доказывает, что GPT способна извлекать общую информацию из последовательностей, тем самым принося пользу всем последующим задачам. Это мотивирует нас использовать предварительно обученные модели для исследования скрытой информации в последовательностях ДНК. Однако данные и требования задач в анализе последовательностей ДНК отличаются сложностью и разнообразием, поскольку данные, связанные с ДНК, включают различные типы информации, такие как последовательности, уровни экспрессии и т.д., в то время как в настоящее время не существует модели, специально разработанной для этих характеристик. В связи с этим мы представляем DNAGPT, обобщённую базовую модель, предварительно обученную на более чем 10 миллиардах пар оснований от 9 видов, которая может быть дообучена для любой задачи анализа последовательностей ДНК. Наша модель способна одновременно обрабатывать или выводить последовательности ДНК и числовые данные. Кроме того, наш уникальный дизайн токенов позволяет пользователям создавать промпты в соответствии с их собственными требованиями к задачам, делая модель применимой к любому типу задач. Мы оценили нашу модель на задачах классификации, регрессии и генерации. Мы демонстрируем, что DNAGPT извлекает пользу из предварительного обучения и, следовательно, может приносить улучшения производительности для любой последующей задачи. Наша модель представляет собой не только новую попытку в области анализа геномов, но и открывает новое направление для применения базовых моделей в биологии.

English

The success of the GPT series proves that GPT can extract general information from sequences, thereby benefiting all downstream tasks. This motivates us to use pre-trained models to explore the hidden information in DNA sequences. However, data and task requirements in DNA sequence analysis are complexity and diversity as DNA relevant data includes different types of information, such as sequences, expression levels, etc, while there is currently no model specifically designed for these characteristics. Hereby, we present DNAGPT, a generalized foundation model pre-trained on over 10 billion base pairs from 9 species which can be fine-tuned for any DNA sequence analysis task. Our model can simultaneously process or output DNA sequences and numbers. In addition, our unique token design allows users to design prompts according to their own task requirements, making it applicable to any type of task. We have evaluated our model on classification, regression, and generation tasks. We demonstrate that DNAGPT benefits from pre-training, and therefore can bring performance gains to any downstream task. Our model is not only a new attempt in the field of genomes analysis, but also provides a new direction for the application of foundation models in biology.

DNAGPT: Универсальный предобученный инструмент для решения множества задач анализа последовательностей ДНК

DNAGPT: A Generalized Pretrained Tool for Multiple DNA Sequence Analysis Tasks

Аннотация

Support