ChatPaper.aiChatPaper

OpenProteinSet: Обучающие данные для структурной биологии в масштабе

OpenProteinSet: Training data for structural biology at scale

August 10, 2023
Авторы: Gustaf Ahdritz, Nazim Bouatta, Sachin Kadyan, Lukas Jarosch, Daniel Berenberg, Ian Fisk, Andrew M. Watkins, Stephen Ra, Richard Bonneau, Mohammed AlQuraishi
cs.AI

Аннотация

Множественные выравнивания последовательностей (MSA) белков содержат богатую биологическую информацию и на протяжении десятилетий являются основным инструментом в биоинформатических методах для таких задач, как проектирование белков и предсказание их структуры. Недавние прорывы, такие как AlphaFold2, которые используют трансформеры для непосредственного анализа больших объемов сырых MSA, вновь подтвердили их важность. Однако генерация MSA требует значительных вычислительных ресурсов, и наборы данных, сопоставимые с теми, что использовались для обучения AlphaFold2, до сих пор не были доступны научному сообществу, что сдерживает прогресс в машинном обучении для белков. Чтобы устранить эту проблему, мы представляем OpenProteinSet — открытый корпус, содержащий более 16 миллионов MSA, связанных структурных гомологов из Protein Data Bank и предсказаний структуры белков, полученных с помощью AlphaFold2. Ранее мы уже продемонстрировали полезность OpenProteinSet, успешно переобучив на нем AlphaFold2. Мы ожидаем, что OpenProteinSet будет широко полезен в качестве обучающих и валидационных данных для 1) разнообразных задач, связанных с изучением структуры, функции и проектирования белков, и 2) крупномасштабных исследований в области мультимодального машинного обучения.
English
Multiple sequence alignments (MSAs) of proteins encode rich biological information and have been workhorses in bioinformatic methods for tasks like protein design and protein structure prediction for decades. Recent breakthroughs like AlphaFold2 that use transformers to attend directly over large quantities of raw MSAs have reaffirmed their importance. Generation of MSAs is highly computationally intensive, however, and no datasets comparable to those used to train AlphaFold2 have been made available to the research community, hindering progress in machine learning for proteins. To remedy this problem, we introduce OpenProteinSet, an open-source corpus of more than 16 million MSAs, associated structural homologs from the Protein Data Bank, and AlphaFold2 protein structure predictions. We have previously demonstrated the utility of OpenProteinSet by successfully retraining AlphaFold2 on it. We expect OpenProteinSet to be broadly useful as training and validation data for 1) diverse tasks focused on protein structure, function, and design and 2) large-scale multimodal machine learning research.
PDF110December 15, 2024