ChatPaper.aiChatPaper

OpenProteinSet: Datos de entrenamiento para biología estructural a gran escala

OpenProteinSet: Training data for structural biology at scale

August 10, 2023
Autores: Gustaf Ahdritz, Nazim Bouatta, Sachin Kadyan, Lukas Jarosch, Daniel Berenberg, Ian Fisk, Andrew M. Watkins, Stephen Ra, Richard Bonneau, Mohammed AlQuraishi
cs.AI

Resumen

Los alineamientos múltiples de secuencias (MSA, por sus siglas en inglés) de proteínas codifican información biológica rica y han sido herramientas fundamentales en métodos bioinformáticos para tareas como el diseño de proteínas y la predicción de estructuras proteicas durante décadas. Recientes avances, como AlphaFold2, que utiliza transformadores para atender directamente grandes cantidades de MSA en bruto, han reafirmado su importancia. Sin embargo, la generación de MSA es altamente intensiva en términos computacionales, y no se han puesto a disposición de la comunidad científica conjuntos de datos comparables a los utilizados para entrenar AlphaFold2, lo que ha obstaculizado el progreso en el aprendizaje automático aplicado a proteínas. Para remediar este problema, presentamos OpenProteinSet, un corpus de código abierto que contiene más de 16 millones de MSA, homólogos estructurales asociados del Protein Data Bank y predicciones de estructuras proteicas de AlphaFold2. Anteriormente hemos demostrado la utilidad de OpenProteinSet al reentrenar con éxito AlphaFold2 utilizando este conjunto. Esperamos que OpenProteinSet sea ampliamente útil como datos de entrenamiento y validación para 1) diversas tareas centradas en la estructura, función y diseño de proteínas, y 2) investigación a gran escala en aprendizaje automático multimodal.
English
Multiple sequence alignments (MSAs) of proteins encode rich biological information and have been workhorses in bioinformatic methods for tasks like protein design and protein structure prediction for decades. Recent breakthroughs like AlphaFold2 that use transformers to attend directly over large quantities of raw MSAs have reaffirmed their importance. Generation of MSAs is highly computationally intensive, however, and no datasets comparable to those used to train AlphaFold2 have been made available to the research community, hindering progress in machine learning for proteins. To remedy this problem, we introduce OpenProteinSet, an open-source corpus of more than 16 million MSAs, associated structural homologs from the Protein Data Bank, and AlphaFold2 protein structure predictions. We have previously demonstrated the utility of OpenProteinSet by successfully retraining AlphaFold2 on it. We expect OpenProteinSet to be broadly useful as training and validation data for 1) diverse tasks focused on protein structure, function, and design and 2) large-scale multimodal machine learning research.
PDF110December 15, 2024