OpenProteinSet: Dati di addestramento per la biologia strutturale su larga scala

Abstract

Gli allineamenti multipli di sequenze (MSA) di proteine codificano ricche informazioni biologiche e sono stati strumenti fondamentali nei metodi bioinformatici per compiti come il design proteico e la predizione della struttura proteica per decenni. Recenti scoperte come AlphaFold2, che utilizzano trasformatori per elaborare direttamente grandi quantità di MSA grezzi, hanno ribadito la loro importanza. Tuttavia, la generazione di MSA è altamente intensiva dal punto di vista computazionale, e nessun dataset paragonabile a quelli utilizzati per addestrare AlphaFold2 è stato reso disponibile alla comunità di ricerca, ostacolando i progressi nel machine learning per le proteine. Per rimediare a questo problema, introduciamo OpenProteinSet, un corpus open-source di oltre 16 milioni di MSA, associati a omologhi strutturali provenienti dal Protein Data Bank e a predizioni della struttura proteica di AlphaFold2. Abbiamo precedentemente dimostrato l'utilità di OpenProteinSet riaddestrando con successo AlphaFold2 su di esso. Ci aspettiamo che OpenProteinSet sia ampiamente utile come dati di addestramento e validazione per 1) una varietà di compiti focalizzati sulla struttura, funzione e design delle proteine e 2) la ricerca su larga scala nel machine learning multimodale.

English

Multiple sequence alignments (MSAs) of proteins encode rich biological information and have been workhorses in bioinformatic methods for tasks like protein design and protein structure prediction for decades. Recent breakthroughs like AlphaFold2 that use transformers to attend directly over large quantities of raw MSAs have reaffirmed their importance. Generation of MSAs is highly computationally intensive, however, and no datasets comparable to those used to train AlphaFold2 have been made available to the research community, hindering progress in machine learning for proteins. To remedy this problem, we introduce OpenProteinSet, an open-source corpus of more than 16 million MSAs, associated structural homologs from the Protein Data Bank, and AlphaFold2 protein structure predictions. We have previously demonstrated the utility of OpenProteinSet by successfully retraining AlphaFold2 on it. We expect OpenProteinSet to be broadly useful as training and validation data for 1) diverse tasks focused on protein structure, function, and design and 2) large-scale multimodal machine learning research.

OpenProteinSet: Dati di addestramento per la biologia strutturale su larga scala

OpenProteinSet: Training data for structural biology at scale

Abstract

Support