OpenProteinSet: Dados de treinamento para biologia estrutural em escala
OpenProteinSet: Training data for structural biology at scale
August 10, 2023
Autores: Gustaf Ahdritz, Nazim Bouatta, Sachin Kadyan, Lukas Jarosch, Daniel Berenberg, Ian Fisk, Andrew M. Watkins, Stephen Ra, Richard Bonneau, Mohammed AlQuraishi
cs.AI
Resumo
Alinhamentos múltiplos de sequências (MSAs, na sigla em inglês) de proteínas codificam informações biológicas ricas e têm sido ferramentas essenciais em métodos bioinformáticos para tarefas como design de proteínas e predição de estrutura proteica há décadas. Avanços recentes, como o AlphaFold2, que utiliza transformers para processar diretamente grandes quantidades de MSAs brutos, reafirmaram sua importância. No entanto, a geração de MSAs é altamente intensiva em termos computacionais, e nenhum conjunto de dados comparável aos usados para treinar o AlphaFold2 foi disponibilizado para a comunidade de pesquisa, dificultando o progresso no aprendizado de máquina aplicado a proteínas. Para resolver esse problema, apresentamos o OpenProteinSet, um corpus de código aberto com mais de 16 milhões de MSAs, homologias estruturais associadas do Protein Data Bank e predições de estrutura proteica do AlphaFold2. Demonstramos anteriormente a utilidade do OpenProteinSet ao retreinar com sucesso o AlphaFold2 com ele. Esperamos que o OpenProteinSet seja amplamente útil como dados de treinamento e validação para 1) diversas tarefas focadas em estrutura, função e design de proteínas e 2) pesquisas em aprendizado de máquina multimodal em larga escala.
English
Multiple sequence alignments (MSAs) of proteins encode rich biological
information and have been workhorses in bioinformatic methods for tasks like
protein design and protein structure prediction for decades. Recent
breakthroughs like AlphaFold2 that use transformers to attend directly over
large quantities of raw MSAs have reaffirmed their importance. Generation of
MSAs is highly computationally intensive, however, and no datasets comparable
to those used to train AlphaFold2 have been made available to the research
community, hindering progress in machine learning for proteins. To remedy this
problem, we introduce OpenProteinSet, an open-source corpus of more than 16
million MSAs, associated structural homologs from the Protein Data Bank, and
AlphaFold2 protein structure predictions. We have previously demonstrated the
utility of OpenProteinSet by successfully retraining AlphaFold2 on it. We
expect OpenProteinSet to be broadly useful as training and validation data for
1) diverse tasks focused on protein structure, function, and design and 2)
large-scale multimodal machine learning research.