Verso l'Interpretazione Molecola-Testo 3D nei Modelli Linguistici

Abstract

I modelli linguistici (LM) hanno influenzato notevolmente diversi domini. Tuttavia, la loro intrinseca limitazione nel comprendere le strutture molecolari 3D ha considerevolmente limitato il loro potenziale nel dominio biomolecolare. Per colmare questa lacuna, ci concentriamo sull'interpretazione testo-molecola 3D e proponiamo 3D-MoLM: 3D-Molecular Language Modeling. Nello specifico, 3D-MoLM consente a un LM di interpretare e analizzare molecole 3D dotando il LM di un codificatore molecolare 3D. Questa integrazione è ottenuta tramite un proiettore testo-molecola 3D, che collega lo spazio di rappresentazione del codificatore molecolare 3D e lo spazio di input del LM. Inoltre, per potenziare la capacità di 3D-MoLM nella comprensione molecolare cross-modale e nel seguire istruzioni, abbiamo curato meticolosamente un dataset di sintonizzazione delle istruzioni centrato su molecole 3D -- 3D-MoIT. Attraverso l'allineamento testo-molecola 3D e la sintonizzazione delle istruzioni centrata su molecole 3D, 3D-MoLM stabilisce un'integrazione tra codificatore molecolare 3D e LM. Supera significativamente i baseline esistenti nei task downstream, inclusi il recupero molecola-testo, la descrizione molecolare e i più impegnativi task di QA molecolare a testo aperto, con particolare attenzione alle proprietà dipendenti dalla struttura 3D.

English

Language Models (LMs) have greatly influenced diverse domains. However, their inherent limitation in comprehending 3D molecular structures has considerably constrained their potential in the biomolecular domain. To bridge this gap, we focus on 3D molecule-text interpretation, and propose 3D-MoLM: 3D-Molecular Language Modeling. Specifically, 3D-MoLM enables an LM to interpret and analyze 3D molecules by equipping the LM with a 3D molecular encoder. This integration is achieved by a 3D molecule-text projector, bridging the 3D molecular encoder's representation space and the LM's input space. Moreover, to enhance 3D-MoLM's ability of cross-modal molecular understanding and instruction following, we meticulously curated a 3D molecule-centric instruction tuning dataset -- 3D-MoIT. Through 3D molecule-text alignment and 3D molecule-centric instruction tuning, 3D-MoLM establishes an integration of 3D molecular encoder and LM. It significantly surpasses existing baselines on downstream tasks, including molecule-text retrieval, molecule captioning, and more challenging open-text molecular QA tasks, especially focusing on 3D-dependent properties.

Verso l'Interpretazione Molecola-Testo 3D nei Modelli Linguistici

Towards 3D Molecule-Text Interpretation in Language Models

Abstract

Support