OpenProteinSet: Trainingsdaten für die Strukturbiologie im großen Maßstab
OpenProteinSet: Training data for structural biology at scale
August 10, 2023
Autoren: Gustaf Ahdritz, Nazim Bouatta, Sachin Kadyan, Lukas Jarosch, Daniel Berenberg, Ian Fisk, Andrew M. Watkins, Stephen Ra, Richard Bonneau, Mohammed AlQuraishi
cs.AI
Zusammenfassung
Multiple Sequence Alignments (MSAs) von Proteinen kodieren umfangreiche biologische Informationen und sind seit Jahrzehnten zentrale Werkzeuge in bioinformatischen Methoden für Aufgaben wie Proteindesign und Proteinstrukturvorhersage. Jüngste Durchbrüche wie AlphaFold2, die Transformer verwenden, um direkt große Mengen roher MSAs zu verarbeiten, haben deren Bedeutung erneut bestätigt. Die Erzeugung von MSAs ist jedoch äußerst rechenintensiv, und es wurden bisher keine Datensätze, die mit denen zur Trainierung von AlphaFold2 vergleichbar sind, der Forschungsgemeinschaft zur Verfügung gestellt, was den Fortschritt im maschinellen Lernen für Proteine behindert. Um dieses Problem zu beheben, stellen wir OpenProteinSet vor, ein Open-Source-Korpus mit mehr als 16 Millionen MSAs, zugehörigen strukturellen Homologen aus der Protein Data Bank und AlphaFold2-Proteinstrukturvorhersagen. Wir haben die Nützlichkeit von OpenProteinSet bereits demonstriert, indem wir AlphaFold2 erfolgreich darauf neu trainiert haben. Wir erwarten, dass OpenProteinSet breit als Trainings- und Validierungsdaten für 1) diverse Aufgaben im Bereich Proteinstruktur, -funktion und -design sowie 2) groß angelegte multimodale maschinelle Lernforschung nützlich sein wird.
English
Multiple sequence alignments (MSAs) of proteins encode rich biological
information and have been workhorses in bioinformatic methods for tasks like
protein design and protein structure prediction for decades. Recent
breakthroughs like AlphaFold2 that use transformers to attend directly over
large quantities of raw MSAs have reaffirmed their importance. Generation of
MSAs is highly computationally intensive, however, and no datasets comparable
to those used to train AlphaFold2 have been made available to the research
community, hindering progress in machine learning for proteins. To remedy this
problem, we introduce OpenProteinSet, an open-source corpus of more than 16
million MSAs, associated structural homologs from the Protein Data Bank, and
AlphaFold2 protein structure predictions. We have previously demonstrated the
utility of OpenProteinSet by successfully retraining AlphaFold2 on it. We
expect OpenProteinSet to be broadly useful as training and validation data for
1) diverse tasks focused on protein structure, function, and design and 2)
large-scale multimodal machine learning research.