OpenProteinSet: Trainingsdata voor structurele biologie op grote schaal
OpenProteinSet: Training data for structural biology at scale
August 10, 2023
Auteurs: Gustaf Ahdritz, Nazim Bouatta, Sachin Kadyan, Lukas Jarosch, Daniel Berenberg, Ian Fisk, Andrew M. Watkins, Stephen Ra, Richard Bonneau, Mohammed AlQuraishi
cs.AI
Samenvatting
Meervoudige sequentie-uitlijningen (MSA's) van eiwitten bevatten rijke biologische informatie en zijn al decennia lang werkpaarden in bioinformatica-methoden voor taken zoals eiwitontwerp en eiwitstructuurvoorspelling. Recente doorbraken zoals AlphaFold2, die transformatoren gebruiken om direct aandacht te besteden aan grote hoeveelheden ruwe MSA's, hebben hun belang opnieuw bevestigd. Het genereren van MSA's is echter zeer rekenintensief, en er zijn geen datasets beschikbaar gesteld aan de onderzoeksgemeenschap die vergelijkbaar zijn met die gebruikt om AlphaFold2 te trainen, wat de vooruitgang in machinaal leren voor eiwitten belemmert. Om dit probleem te verhelpen, introduceren we OpenProteinSet, een open-source corpus van meer dan 16 miljoen MSA's, geassocieerde structurele homologen uit de Protein Data Bank, en AlphaFold2 eiwitstructuurvoorspellingen. We hebben eerder de bruikbaarheid van OpenProteinSet aangetoond door AlphaFold2 succesvol opnieuw te trainen met deze dataset. We verwachten dat OpenProteinSet breed toepasbaar zal zijn als trainings- en validatiedata voor 1) diverse taken gericht op eiwitstructuur, functie en ontwerp, en 2) grootschalig multimodaal machinaal leren onderzoek.
English
Multiple sequence alignments (MSAs) of proteins encode rich biological
information and have been workhorses in bioinformatic methods for tasks like
protein design and protein structure prediction for decades. Recent
breakthroughs like AlphaFold2 that use transformers to attend directly over
large quantities of raw MSAs have reaffirmed their importance. Generation of
MSAs is highly computationally intensive, however, and no datasets comparable
to those used to train AlphaFold2 have been made available to the research
community, hindering progress in machine learning for proteins. To remedy this
problem, we introduce OpenProteinSet, an open-source corpus of more than 16
million MSAs, associated structural homologs from the Protein Data Bank, and
AlphaFold2 protein structure predictions. We have previously demonstrated the
utility of OpenProteinSet by successfully retraining AlphaFold2 on it. We
expect OpenProteinSet to be broadly useful as training and validation data for
1) diverse tasks focused on protein structure, function, and design and 2)
large-scale multimodal machine learning research.