OpenProteinSet : Données d'entraînement pour la biologie structurale à grande échelle
OpenProteinSet: Training data for structural biology at scale
August 10, 2023
Auteurs: Gustaf Ahdritz, Nazim Bouatta, Sachin Kadyan, Lukas Jarosch, Daniel Berenberg, Ian Fisk, Andrew M. Watkins, Stephen Ra, Richard Bonneau, Mohammed AlQuraishi
cs.AI
Résumé
Les alignements multiples de séquences (MSA) de protéines codent une riche information biologique et ont été des outils essentiels dans les méthodes bioinformatiques pour des tâches telles que la conception de protéines et la prédiction de la structure des protéines depuis des décennies. Les récentes avancées, comme AlphaFold2, qui utilisent des transformers pour traiter directement de grandes quantités de MSA bruts, ont réaffirmé leur importance. Cependant, la génération de MSA est très intensive en calculs, et aucun jeu de données comparable à ceux utilisés pour entraîner AlphaFold2 n'a été mis à disposition de la communauté scientifique, freinant les progrès en apprentissage automatique pour les protéines. Pour remédier à ce problème, nous présentons OpenProteinSet, un corpus open-source de plus de 16 millions de MSA, associés à des homologues structuraux issus de la Protein Data Bank, ainsi qu'à des prédictions de structure de protéines par AlphaFold2. Nous avons déjà démontré l'utilité d'OpenProteinSet en réentraînant avec succès AlphaFold2 sur ce corpus. Nous prévoyons qu'OpenProteinSet sera largement utile comme données d'entraînement et de validation pour 1) diverses tâches centrées sur la structure, la fonction et la conception des protéines, et 2) la recherche en apprentissage automatique multimodal à grande échelle.
English
Multiple sequence alignments (MSAs) of proteins encode rich biological
information and have been workhorses in bioinformatic methods for tasks like
protein design and protein structure prediction for decades. Recent
breakthroughs like AlphaFold2 that use transformers to attend directly over
large quantities of raw MSAs have reaffirmed their importance. Generation of
MSAs is highly computationally intensive, however, and no datasets comparable
to those used to train AlphaFold2 have been made available to the research
community, hindering progress in machine learning for proteins. To remedy this
problem, we introduce OpenProteinSet, an open-source corpus of more than 16
million MSAs, associated structural homologs from the Protein Data Bank, and
AlphaFold2 protein structure predictions. We have previously demonstrated the
utility of OpenProteinSet by successfully retraining AlphaFold2 on it. We
expect OpenProteinSet to be broadly useful as training and validation data for
1) diverse tasks focused on protein structure, function, and design and 2)
large-scale multimodal machine learning research.