ChatPaper.aiChatPaper

DNAGPT:複数のDNA配列解析タスクのための汎用事前学習ツール

DNAGPT: A Generalized Pretrained Tool for Multiple DNA Sequence Analysis Tasks

July 11, 2023
著者: Daoan Zhang, Weitong Zhang, Bing He, Jianguo Zhang, Chenchen Qin, Jianhua Yao
cs.AI

要旨

GPTシリーズの成功は、GPTがシーケンスから一般的な情報を抽出し、それによってすべての下流タスクに利益をもたらすことができることを証明しています。これは、事前学習済みモデルを使用してDNAシーケンスに隠された情報を探求する動機となります。しかし、DNAシーケンス分析におけるデータとタスクの要件は複雑で多様であり、DNA関連データにはシーケンスや発現レベルなど、さまざまな種類の情報が含まれていますが、これらの特性に特化して設計されたモデルは現在存在しません。ここでは、9種の生物から100億以上の塩基対で事前学習された汎用基盤モデルであるDNAGPTを紹介します。このモデルは、任意のDNAシーケンス分析タスクにファインチューニングすることができます。私たちのモデルは、DNAシーケンスと数値を同時に処理または出力することができます。さらに、独自のトークン設計により、ユーザーは自身のタスク要件に応じてプロンプトを設計することができ、あらゆるタイプのタスクに適用可能です。分類、回帰、生成タスクにおいてモデルを評価しました。事前学習の恩恵を受けることで、DNAGPTは下流タスクに性能向上をもたらすことができることを実証しています。私たちのモデルは、ゲノム分析分野における新たな試みであるだけでなく、生物学における基盤モデルの応用に新たな方向性を提供するものです。
English
The success of the GPT series proves that GPT can extract general information from sequences, thereby benefiting all downstream tasks. This motivates us to use pre-trained models to explore the hidden information in DNA sequences. However, data and task requirements in DNA sequence analysis are complexity and diversity as DNA relevant data includes different types of information, such as sequences, expression levels, etc, while there is currently no model specifically designed for these characteristics. Hereby, we present DNAGPT, a generalized foundation model pre-trained on over 10 billion base pairs from 9 species which can be fine-tuned for any DNA sequence analysis task. Our model can simultaneously process or output DNA sequences and numbers. In addition, our unique token design allows users to design prompts according to their own task requirements, making it applicable to any type of task. We have evaluated our model on classification, regression, and generation tasks. We demonstrate that DNAGPT benefits from pre-training, and therefore can bring performance gains to any downstream task. Our model is not only a new attempt in the field of genomes analysis, but also provides a new direction for the application of foundation models in biology.
PDF100December 15, 2024