OpenProteinSet: Dados de treinamento para biologia estrutural em escala

Resumo

Alinhamentos múltiplos de sequências (MSAs, na sigla em inglês) de proteínas codificam informações biológicas ricas e têm sido ferramentas essenciais em métodos bioinformáticos para tarefas como design de proteínas e predição de estrutura proteica há décadas. Avanços recentes, como o AlphaFold2, que utiliza transformers para processar diretamente grandes quantidades de MSAs brutos, reafirmaram sua importância. No entanto, a geração de MSAs é altamente intensiva em termos computacionais, e nenhum conjunto de dados comparável aos usados para treinar o AlphaFold2 foi disponibilizado para a comunidade de pesquisa, dificultando o progresso no aprendizado de máquina aplicado a proteínas. Para resolver esse problema, apresentamos o OpenProteinSet, um corpus de código aberto com mais de 16 milhões de MSAs, homologias estruturais associadas do Protein Data Bank e predições de estrutura proteica do AlphaFold2. Demonstramos anteriormente a utilidade do OpenProteinSet ao retreinar com sucesso o AlphaFold2 com ele. Esperamos que o OpenProteinSet seja amplamente útil como dados de treinamento e validação para 1) diversas tarefas focadas em estrutura, função e design de proteínas e 2) pesquisas em aprendizado de máquina multimodal em larga escala.

English

Multiple sequence alignments (MSAs) of proteins encode rich biological information and have been workhorses in bioinformatic methods for tasks like protein design and protein structure prediction for decades. Recent breakthroughs like AlphaFold2 that use transformers to attend directly over large quantities of raw MSAs have reaffirmed their importance. Generation of MSAs is highly computationally intensive, however, and no datasets comparable to those used to train AlphaFold2 have been made available to the research community, hindering progress in machine learning for proteins. To remedy this problem, we introduce OpenProteinSet, an open-source corpus of more than 16 million MSAs, associated structural homologs from the Protein Data Bank, and AlphaFold2 protein structure predictions. We have previously demonstrated the utility of OpenProteinSet by successfully retraining AlphaFold2 on it. We expect OpenProteinSet to be broadly useful as training and validation data for 1) diverse tasks focused on protein structure, function, and design and 2) large-scale multimodal machine learning research.

OpenProteinSet: Dados de treinamento para biologia estrutural em escala

OpenProteinSet: Training data for structural biology at scale

Resumo

Support