DPLM-2: Un Modelo de Lenguaje de Proteínas de Difusión Multimodal
DPLM-2: A Multimodal Diffusion Protein Language Model
October 17, 2024
Autores: Xinyou Wang, Zaixiang Zheng, Fei Ye, Dongyu Xue, Shujian Huang, Quanquan Gu
cs.AI
Resumen
Las proteínas son macromoléculas esenciales definidas por sus secuencias de aminoácidos, que determinan sus estructuras tridimensionales y, en consecuencia, sus funciones en todos los organismos vivos. Por lo tanto, el modelado generativo de proteínas requiere un enfoque multimodal para modelar, entender y generar simultáneamente tanto secuencias como estructuras. Sin embargo, los métodos existentes suelen utilizar modelos separados para cada modalidad, lo que limita su capacidad para capturar las complejas relaciones entre secuencia y estructura. Esto resulta en un rendimiento subóptimo en tareas que requieren una comprensión conjunta y generación de ambas modalidades. En este documento, presentamos DPLM-2, un modelo base de proteínas multimodal que extiende el modelo de lenguaje de proteínas de difusión discreta (DPLM) para dar cabida tanto a secuencias como estructuras. Para permitir el aprendizaje estructural con el modelo de lenguaje, las coordenadas 3D se convierten en tokens discretos utilizando un tokenizador basado en cuantificación sin búsqueda. Al entrenar tanto con estructuras experimentales como con estructuras sintéticas de alta calidad, DPLM-2 aprende la distribución conjunta de secuencia y estructura, así como sus marginales y condicionales. También implementamos una estrategia eficiente de calentamiento para aprovechar la conexión entre los datos evolutivos a gran escala y los sesgos inductivos estructurales de los modelos de lenguaje de proteínas preentrenados basados en secuencias. La evaluación empírica muestra que DPLM-2 puede generar simultáneamente secuencias de aminoácidos altamente compatibles y sus estructuras 3D correspondientes, eliminando la necesidad de un enfoque de generación en dos etapas. Además, DPLM-2 demuestra un rendimiento competitivo en varias tareas de generación condicional, incluyendo plegamiento, plegamiento inverso y andamiaje con entradas de motivos multimodales, así como proporcionando representaciones conscientes de la estructura para tareas predictivas.
English
Proteins are essential macromolecules defined by their amino acid sequences,
which determine their three-dimensional structures and, consequently, their
functions in all living organisms. Therefore, generative protein modeling
necessitates a multimodal approach to simultaneously model, understand, and
generate both sequences and structures. However, existing methods typically use
separate models for each modality, limiting their ability to capture the
intricate relationships between sequence and structure. This results in
suboptimal performance in tasks that requires joint understanding and
generation of both modalities. In this paper, we introduce DPLM-2, a multimodal
protein foundation model that extends discrete diffusion protein language model
(DPLM) to accommodate both sequences and structures. To enable structural
learning with the language model, 3D coordinates are converted to discrete
tokens using a lookup-free quantization-based tokenizer. By training on both
experimental and high-quality synthetic structures, DPLM-2 learns the joint
distribution of sequence and structure, as well as their marginals and
conditionals. We also implement an efficient warm-up strategy to exploit the
connection between large-scale evolutionary data and structural inductive
biases from pre-trained sequence-based protein language models. Empirical
evaluation shows that DPLM-2 can simultaneously generate highly compatible
amino acid sequences and their corresponding 3D structures eliminating the need
for a two-stage generation approach. Moreover, DPLM-2 demonstrates competitive
performance in various conditional generation tasks, including folding, inverse
folding, and scaffolding with multimodal motif inputs, as well as providing
structure-aware representations for predictive tasks.Summary
AI-Generated Summary