ChatPaper.aiChatPaper

Vers une interprétation 3D molécule-texte dans les modèles de langage

Towards 3D Molecule-Text Interpretation in Language Models

January 25, 2024
Auteurs: Sihang Li, Zhiyuan Liu, Yanchen Luo, Xiang Wang, Xiangnan He, Kenji Kawaguchi, Tat-Seng Chua, Qi Tian
cs.AI

Résumé

Les modèles de langage (LMs) ont grandement influencé divers domaines. Cependant, leur limitation inhérente à comprendre les structures moléculaires 3D a considérablement restreint leur potentiel dans le domaine biomoléculaire. Pour combler cette lacune, nous nous concentrons sur l'interprétation texte-molécule 3D et proposons 3D-MoLM : 3D-Molecular Language Modeling. Plus précisément, 3D-MoLM permet à un LM d'interpréter et d'analyser des molécules 3D en équipant le LM d'un encodeur moléculaire 3D. Cette intégration est réalisée par un projecteur texte-molécule 3D, reliant l'espace de représentation de l'encodeur moléculaire 3D et l'espace d'entrée du LM. De plus, pour améliorer la capacité de 3D-MoLM à comprendre les molécules de manière intermodale et à suivre des instructions, nous avons soigneusement constitué un jeu de données d'ajustement d'instructions centré sur les molécules 3D -- 3D-MoIT. Grâce à l'alignement texte-molécule 3D et à l'ajustement d'instructions centré sur les molécules 3D, 3D-MoLM établit une intégration de l'encodeur moléculaire 3D et du LM. Il surpasse significativement les bases de référence existantes sur les tâches en aval, y compris la récupération texte-molécule, la description de molécules et les tâches plus complexes de questions-réponses moléculaires en texte libre, en se concentrant particulièrement sur les propriétés dépendantes de la 3D.
English
Language Models (LMs) have greatly influenced diverse domains. However, their inherent limitation in comprehending 3D molecular structures has considerably constrained their potential in the biomolecular domain. To bridge this gap, we focus on 3D molecule-text interpretation, and propose 3D-MoLM: 3D-Molecular Language Modeling. Specifically, 3D-MoLM enables an LM to interpret and analyze 3D molecules by equipping the LM with a 3D molecular encoder. This integration is achieved by a 3D molecule-text projector, bridging the 3D molecular encoder's representation space and the LM's input space. Moreover, to enhance 3D-MoLM's ability of cross-modal molecular understanding and instruction following, we meticulously curated a 3D molecule-centric instruction tuning dataset -- 3D-MoIT. Through 3D molecule-text alignment and 3D molecule-centric instruction tuning, 3D-MoLM establishes an integration of 3D molecular encoder and LM. It significantly surpasses existing baselines on downstream tasks, including molecule-text retrieval, molecule captioning, and more challenging open-text molecular QA tasks, especially focusing on 3D-dependent properties.

Summary

AI-Generated Summary

PDF91December 15, 2024