Naar 3D Molecuul-Tekst Interpretatie in Taalmodellen
Towards 3D Molecule-Text Interpretation in Language Models
January 25, 2024
Auteurs: Sihang Li, Zhiyuan Liu, Yanchen Luo, Xiang Wang, Xiangnan He, Kenji Kawaguchi, Tat-Seng Chua, Qi Tian
cs.AI
Samenvatting
Taalmodelen (LMs) hebben een grote invloed gehad op diverse domeinen. Hun inherente beperking in het begrijpen van 3D-moleculaire structuren heeft echter hun potentieel in het biomoleculaire domein aanzienlijk beperkt. Om deze kloof te overbruggen, richten we ons op 3D-molecuul-tekstinterpretatie en stellen we 3D-MoLM voor: 3D-Moleculair Taalmodelleren. Specifiek stelt 3D-MoLM een LM in staat om 3D-moleculen te interpreteren en analyseren door de LM uit te rusten met een 3D-moleculaire encoder. Deze integratie wordt bereikt door een 3D-molecuul-tekstprojector, die de representatieruimte van de 3D-moleculaire encoder en de invoerruimte van de LM met elkaar verbindt. Bovendien hebben we, om het vermogen van 3D-MoLM voor kruismodale moleculaire interpretatie en instructievolging te verbeteren, zorgvuldig een 3D-molecuulgericht instructieafstemmingsdataset samengesteld -- 3D-MoIT. Door 3D-molecuul-tekstuitlijning en 3D-molecuulgerichte instructieafstemming, stelt 3D-MoLM een integratie van 3D-moleculaire encoder en LM tot stand. Het overtreft aanzienlijk bestaande basislijnen bij downstreamtaken, waaronder molecuul-tekstretrieval, molecuulbeschrijving en uitdagendere open-tekst moleculaire QA-taken, met name gericht op 3D-afhankelijke eigenschappen.
English
Language Models (LMs) have greatly influenced diverse domains. However, their
inherent limitation in comprehending 3D molecular structures has considerably
constrained their potential in the biomolecular domain. To bridge this gap, we
focus on 3D molecule-text interpretation, and propose 3D-MoLM: 3D-Molecular
Language Modeling. Specifically, 3D-MoLM enables an LM to interpret and analyze
3D molecules by equipping the LM with a 3D molecular encoder. This integration
is achieved by a 3D molecule-text projector, bridging the 3D molecular
encoder's representation space and the LM's input space. Moreover, to enhance
3D-MoLM's ability of cross-modal molecular understanding and instruction
following, we meticulously curated a 3D molecule-centric instruction tuning
dataset -- 3D-MoIT. Through 3D molecule-text alignment and 3D molecule-centric
instruction tuning, 3D-MoLM establishes an integration of 3D molecular encoder
and LM. It significantly surpasses existing baselines on downstream tasks,
including molecule-text retrieval, molecule captioning, and more challenging
open-text molecular QA tasks, especially focusing on 3D-dependent properties.