DPLM-2: Um Modelo de Linguagem de Proteínas por Difusão Multimodal
DPLM-2: A Multimodal Diffusion Protein Language Model
October 17, 2024
Autores: Xinyou Wang, Zaixiang Zheng, Fei Ye, Dongyu Xue, Shujian Huang, Quanquan Gu
cs.AI
Resumo
As proteínas são macromoléculas essenciais definidas por suas sequências de aminoácidos, que determinam suas estruturas tridimensionais e, consequentemente, suas funções em todos os organismos vivos. Portanto, a modelagem generativa de proteínas exige uma abordagem multimodal para modelar, entender e gerar simultaneamente sequências e estruturas. No entanto, os métodos existentes geralmente utilizam modelos separados para cada modalidade, limitando sua capacidade de capturar as complexas relações entre sequência e estrutura. Isso resulta em desempenho subótimo em tarefas que exigem entendimento conjunto e geração de ambas as modalidades. Neste artigo, apresentamos o DPLM-2, um modelo de base de proteínas multimodal que estende o modelo de linguagem de proteínas de difusão discreta (DPLM) para acomodar tanto sequências quanto estruturas. Para permitir o aprendizado estrutural com o modelo de linguagem, as coordenadas 3D são convertidas em tokens discretos usando um tokenizador baseado em quantização sem pesquisa de consulta. Ao treinar em estruturas experimentais e sintéticas de alta qualidade, o DPLM-2 aprende a distribuição conjunta de sequência e estrutura, bem como suas marginais e condicionais. Também implementamos uma estratégia eficiente de aquecimento para explorar a conexão entre dados evolutivos em grande escala e viés indutivo estrutural de modelos de linguagem de proteínas pré-treinados baseados em sequência. A avaliação empírica mostra que o DPLM-2 pode gerar simultaneamente sequências de aminoácidos altamente compatíveis e suas estruturas 3D correspondentes, eliminando a necessidade de uma abordagem de geração em duas etapas. Além disso, o DPLM-2 demonstra desempenho competitivo em várias tarefas de geração condicional, incluindo dobramento, dobramento inverso e andaime com entradas de motivos multimodais, além de fornecer representações conscientes da estrutura para tarefas preditivas.
English
Proteins are essential macromolecules defined by their amino acid sequences,
which determine their three-dimensional structures and, consequently, their
functions in all living organisms. Therefore, generative protein modeling
necessitates a multimodal approach to simultaneously model, understand, and
generate both sequences and structures. However, existing methods typically use
separate models for each modality, limiting their ability to capture the
intricate relationships between sequence and structure. This results in
suboptimal performance in tasks that requires joint understanding and
generation of both modalities. In this paper, we introduce DPLM-2, a multimodal
protein foundation model that extends discrete diffusion protein language model
(DPLM) to accommodate both sequences and structures. To enable structural
learning with the language model, 3D coordinates are converted to discrete
tokens using a lookup-free quantization-based tokenizer. By training on both
experimental and high-quality synthetic structures, DPLM-2 learns the joint
distribution of sequence and structure, as well as their marginals and
conditionals. We also implement an efficient warm-up strategy to exploit the
connection between large-scale evolutionary data and structural inductive
biases from pre-trained sequence-based protein language models. Empirical
evaluation shows that DPLM-2 can simultaneously generate highly compatible
amino acid sequences and their corresponding 3D structures eliminating the need
for a two-stage generation approach. Moreover, DPLM-2 demonstrates competitive
performance in various conditional generation tasks, including folding, inverse
folding, and scaffolding with multimodal motif inputs, as well as providing
structure-aware representations for predictive tasks.Summary
AI-Generated Summary