Verso l'Interpretazione Molecola-Testo 3D nei Modelli Linguistici
Towards 3D Molecule-Text Interpretation in Language Models
January 25, 2024
Autori: Sihang Li, Zhiyuan Liu, Yanchen Luo, Xiang Wang, Xiangnan He, Kenji Kawaguchi, Tat-Seng Chua, Qi Tian
cs.AI
Abstract
I modelli linguistici (LM) hanno influenzato notevolmente diversi domini. Tuttavia, la loro intrinseca limitazione nel comprendere le strutture molecolari 3D ha considerevolmente limitato il loro potenziale nel dominio biomolecolare. Per colmare questa lacuna, ci concentriamo sull'interpretazione testo-molecola 3D e proponiamo 3D-MoLM: 3D-Molecular Language Modeling. Nello specifico, 3D-MoLM consente a un LM di interpretare e analizzare molecole 3D dotando il LM di un codificatore molecolare 3D. Questa integrazione è ottenuta tramite un proiettore testo-molecola 3D, che collega lo spazio di rappresentazione del codificatore molecolare 3D e lo spazio di input del LM. Inoltre, per potenziare la capacità di 3D-MoLM nella comprensione molecolare cross-modale e nel seguire istruzioni, abbiamo curato meticolosamente un dataset di sintonizzazione delle istruzioni centrato su molecole 3D -- 3D-MoIT. Attraverso l'allineamento testo-molecola 3D e la sintonizzazione delle istruzioni centrata su molecole 3D, 3D-MoLM stabilisce un'integrazione tra codificatore molecolare 3D e LM. Supera significativamente i baseline esistenti nei task downstream, inclusi il recupero molecola-testo, la descrizione molecolare e i più impegnativi task di QA molecolare a testo aperto, con particolare attenzione alle proprietà dipendenti dalla struttura 3D.
English
Language Models (LMs) have greatly influenced diverse domains. However, their
inherent limitation in comprehending 3D molecular structures has considerably
constrained their potential in the biomolecular domain. To bridge this gap, we
focus on 3D molecule-text interpretation, and propose 3D-MoLM: 3D-Molecular
Language Modeling. Specifically, 3D-MoLM enables an LM to interpret and analyze
3D molecules by equipping the LM with a 3D molecular encoder. This integration
is achieved by a 3D molecule-text projector, bridging the 3D molecular
encoder's representation space and the LM's input space. Moreover, to enhance
3D-MoLM's ability of cross-modal molecular understanding and instruction
following, we meticulously curated a 3D molecule-centric instruction tuning
dataset -- 3D-MoIT. Through 3D molecule-text alignment and 3D molecule-centric
instruction tuning, 3D-MoLM establishes an integration of 3D molecular encoder
and LM. It significantly surpasses existing baselines on downstream tasks,
including molecule-text retrieval, molecule captioning, and more challenging
open-text molecular QA tasks, especially focusing on 3D-dependent properties.