OpenProteinSet:構造生物学のための大規模トレーニングデータ
OpenProteinSet: Training data for structural biology at scale
August 10, 2023
著者: Gustaf Ahdritz, Nazim Bouatta, Sachin Kadyan, Lukas Jarosch, Daniel Berenberg, Ian Fisk, Andrew M. Watkins, Stephen Ra, Richard Bonneau, Mohammed AlQuraishi
cs.AI
要旨
タンパク質の多重配列アラインメント(MSA)は、豊富な生物学的情報をエンコードしており、数十年にわたりタンパク質設計やタンパク質構造予測などのバイオインフォマティクス手法において重要な役割を果たしてきました。最近のブレークスルーであるAlphaFold2は、トランスフォーマーを活用して大量の生のMSAに直接アテンションを適用し、その重要性を再確認しました。しかし、MSAの生成は計算集約的であり、AlphaFold2のトレーニングに使用されたものに匹敵するデータセットが研究コミュニティに公開されていないため、タンパク質における機械学習の進展が妨げられています。この問題を解決するため、我々はOpenProteinSetを紹介します。これは、1600万以上のMSA、Protein Data Bankからの関連する構造ホモログ、およびAlphaFold2によるタンパク質構造予測を含むオープンソースのコーパスです。我々は既に、OpenProteinSetを使用してAlphaFold2の再トレーニングに成功し、その有用性を実証しています。OpenProteinSetは、1) タンパク質の構造、機能、設計に焦点を当てた多様なタスク、および2) 大規模なマルチモーダル機械学習研究のためのトレーニングおよび検証データとして、広く有用であると期待されます。
English
Multiple sequence alignments (MSAs) of proteins encode rich biological
information and have been workhorses in bioinformatic methods for tasks like
protein design and protein structure prediction for decades. Recent
breakthroughs like AlphaFold2 that use transformers to attend directly over
large quantities of raw MSAs have reaffirmed their importance. Generation of
MSAs is highly computationally intensive, however, and no datasets comparable
to those used to train AlphaFold2 have been made available to the research
community, hindering progress in machine learning for proteins. To remedy this
problem, we introduce OpenProteinSet, an open-source corpus of more than 16
million MSAs, associated structural homologs from the Protein Data Bank, and
AlphaFold2 protein structure predictions. We have previously demonstrated the
utility of OpenProteinSet by successfully retraining AlphaFold2 on it. We
expect OpenProteinSet to be broadly useful as training and validation data for
1) diverse tasks focused on protein structure, function, and design and 2)
large-scale multimodal machine learning research.