言語モデルにおける3D分子-テキスト解釈に向けて
Towards 3D Molecule-Text Interpretation in Language Models
January 25, 2024
著者: Sihang Li, Zhiyuan Liu, Yanchen Luo, Xiang Wang, Xiangnan He, Kenji Kawaguchi, Tat-Seng Chua, Qi Tian
cs.AI
要旨
言語モデル(LM)は多様な領域に大きな影響を与えてきた。しかし、3D分子構造を理解するという本質的な制約により、生体分子領域での可能性が大きく制限されてきた。このギャップを埋めるため、我々は3D分子-テキスト解釈に焦点を当て、3D-MoLM: 3D-Molecular Language Modelingを提案する。具体的には、3D-MoLMはLMに3D分子エンコーダを組み込むことで、LMが3D分子を解釈・分析できるようにする。この統合は、3D分子エンコーダの表現空間とLMの入力空間を橋渡しする3D分子-テキストプロジェクタによって実現される。さらに、3D-MoLMのクロスモーダル分子理解能力と指示追従能力を強化するため、3D分子中心の指示チューニングデータセット「3D-MoIT」を慎重に作成した。3D分子-テキストアラインメントと3D分子中心の指示チューニングを通じて、3D-MoLMは3D分子エンコーダとLMの統合を確立する。これにより、分子-テキスト検索、分子キャプショニング、そして特に3D依存特性に焦点を当てたより挑戦的なオープンテキスト分子QAタスクなど、下流タスクにおいて既存のベースラインを大幅に上回る性能を発揮する。
English
Language Models (LMs) have greatly influenced diverse domains. However, their
inherent limitation in comprehending 3D molecular structures has considerably
constrained their potential in the biomolecular domain. To bridge this gap, we
focus on 3D molecule-text interpretation, and propose 3D-MoLM: 3D-Molecular
Language Modeling. Specifically, 3D-MoLM enables an LM to interpret and analyze
3D molecules by equipping the LM with a 3D molecular encoder. This integration
is achieved by a 3D molecule-text projector, bridging the 3D molecular
encoder's representation space and the LM's input space. Moreover, to enhance
3D-MoLM's ability of cross-modal molecular understanding and instruction
following, we meticulously curated a 3D molecule-centric instruction tuning
dataset -- 3D-MoIT. Through 3D molecule-text alignment and 3D molecule-centric
instruction tuning, 3D-MoLM establishes an integration of 3D molecular encoder
and LM. It significantly surpasses existing baselines on downstream tasks,
including molecule-text retrieval, molecule captioning, and more challenging
open-text molecular QA tasks, especially focusing on 3D-dependent properties.Summary
AI-Generated Summary