DPLM-2: Мультимодельная модель языка диффузии белков
DPLM-2: A Multimodal Diffusion Protein Language Model
October 17, 2024
Авторы: Xinyou Wang, Zaixiang Zheng, Fei Ye, Dongyu Xue, Shujian Huang, Quanquan Gu
cs.AI
Аннотация
Белки - это важные макромолекулы, определяемые своими последовательностями аминокислот, которые определяют их трехмерные структуры и, следовательно, их функции во всех живых организмах. Поэтому генеративное моделирование белков требует мультимодального подхода для одновременного моделирования, понимания и генерации как последовательностей, так и структур. Однако существующие методы обычно используют отдельные модели для каждой модальности, что ограничивает их способность улавливать сложные взаимосвязи между последовательностью и структурой. Это приводит к неоптимальной производительности в задачах, требующих совместного понимания и генерации обеих модальностей. В данной статье мы представляем DPLM-2, мультимодельную базовую модель белков, расширяющую модель дискретной диффузии языка белков (DPLM) для адаптации как последовательностей, так и структур. Для обеспечения обучения структур с помощью языковой модели трехмерные координаты преобразуются в дискретные токены с использованием токенизатора на основе квантования без поиска в таблице. Обучаясь на экспериментальных и высококачественных синтетических структурах, DPLM-2 изучает совместное распределение последовательности и структуры, а также их маргиналы и условные распределения. Мы также реализуем эффективную стратегию разогрева для использования связи между масштабными эволюционными данными и структурными индуктивными предпочтениями от предварительно обученных последовательностных языковых моделей белков. Эмпирическая оценка показывает, что DPLM-2 может одновременно генерировать высококомпатибельные последовательности аминокислот и соответствующие им трехмерные структуры, исключая необходимость в двухэтапном подходе к генерации. Более того, DPLM-2 демонстрирует конкурентоспособную производительность в различных задачах условной генерации, включая складывание, обратное складывание и создание каркаса с мультимодальными входами мотивов, а также обеспечивает структурно-осознанные представления для предсказательных задач.
English
Proteins are essential macromolecules defined by their amino acid sequences,
which determine their three-dimensional structures and, consequently, their
functions in all living organisms. Therefore, generative protein modeling
necessitates a multimodal approach to simultaneously model, understand, and
generate both sequences and structures. However, existing methods typically use
separate models for each modality, limiting their ability to capture the
intricate relationships between sequence and structure. This results in
suboptimal performance in tasks that requires joint understanding and
generation of both modalities. In this paper, we introduce DPLM-2, a multimodal
protein foundation model that extends discrete diffusion protein language model
(DPLM) to accommodate both sequences and structures. To enable structural
learning with the language model, 3D coordinates are converted to discrete
tokens using a lookup-free quantization-based tokenizer. By training on both
experimental and high-quality synthetic structures, DPLM-2 learns the joint
distribution of sequence and structure, as well as their marginals and
conditionals. We also implement an efficient warm-up strategy to exploit the
connection between large-scale evolutionary data and structural inductive
biases from pre-trained sequence-based protein language models. Empirical
evaluation shows that DPLM-2 can simultaneously generate highly compatible
amino acid sequences and their corresponding 3D structures eliminating the need
for a two-stage generation approach. Moreover, DPLM-2 demonstrates competitive
performance in various conditional generation tasks, including folding, inverse
folding, and scaffolding with multimodal motif inputs, as well as providing
structure-aware representations for predictive tasks.Summary
AI-Generated Summary