DPLM-2: Un Modello Linguistico Proteico a Diffusione Multimodale
DPLM-2: A Multimodal Diffusion Protein Language Model
October 17, 2024
Autori: Xinyou Wang, Zaixiang Zheng, Fei Ye, Dongyu Xue, Shujian Huang, Quanquan Gu
cs.AI
Abstract
Le proteine sono macromolecole essenziali definite dalle loro sequenze di amminoacidi, che determinano le loro strutture tridimensionali e, di conseguenza, le loro funzioni in tutti gli organismi viventi. Pertanto, la modellazione generativa delle proteine richiede un approccio multimodale per modellare, comprendere e generare simultaneamente sia le sequenze che le strutture. Tuttavia, i metodi esistenti di solito utilizzano modelli separati per ciascuna modalità, limitando la loro capacità di catturare le complesse relazioni tra sequenza e struttura. Ciò comporta prestazioni non ottimali nei compiti che richiedono una comprensione congiunta e la generazione di entrambe le modalità. In questo articolo, presentiamo DPLM-2, un modello fondamentale di proteine multimodale che estende il modello di linguaggio proteico a diffusione discreta (DPLM) per includere sia sequenze che strutture. Per consentire l'apprendimento strutturale con il modello di linguaggio, le coordinate 3D vengono convertite in token discreti utilizzando un tokenizer basato su quantizzazione senza ricerca. Allenandosi su strutture sperimentali e sintetiche di alta qualità, DPLM-2 apprende la distribuzione congiunta di sequenza e struttura, così come i loro marginali e condizionali. Implementiamo anche una strategia efficiente di avvio per sfruttare la connessione tra dati evolutivi su larga scala e i bias induttivi strutturali dai modelli di linguaggio proteico preaddestrati basati su sequenza. La valutazione empirica mostra che DPLM-2 può generare simultaneamente sequenze di amminoacidi altamente compatibili e le rispettive strutture 3D eliminando la necessità di un approccio di generazione a due fasi. Inoltre, DPLM-2 dimostra prestazioni competitive in vari compiti di generazione condizionale, inclusi piegatura, piegatura inversa e impalcatura con input di motivi multimodali, oltre a fornire rappresentazioni consapevoli della struttura per compiti predittivi.
English
Proteins are essential macromolecules defined by their amino acid sequences,
which determine their three-dimensional structures and, consequently, their
functions in all living organisms. Therefore, generative protein modeling
necessitates a multimodal approach to simultaneously model, understand, and
generate both sequences and structures. However, existing methods typically use
separate models for each modality, limiting their ability to capture the
intricate relationships between sequence and structure. This results in
suboptimal performance in tasks that requires joint understanding and
generation of both modalities. In this paper, we introduce DPLM-2, a multimodal
protein foundation model that extends discrete diffusion protein language model
(DPLM) to accommodate both sequences and structures. To enable structural
learning with the language model, 3D coordinates are converted to discrete
tokens using a lookup-free quantization-based tokenizer. By training on both
experimental and high-quality synthetic structures, DPLM-2 learns the joint
distribution of sequence and structure, as well as their marginals and
conditionals. We also implement an efficient warm-up strategy to exploit the
connection between large-scale evolutionary data and structural inductive
biases from pre-trained sequence-based protein language models. Empirical
evaluation shows that DPLM-2 can simultaneously generate highly compatible
amino acid sequences and their corresponding 3D structures eliminating the need
for a two-stage generation approach. Moreover, DPLM-2 demonstrates competitive
performance in various conditional generation tasks, including folding, inverse
folding, and scaffolding with multimodal motif inputs, as well as providing
structure-aware representations for predictive tasks.