ChatPaper.aiChatPaper

Mol-LLaMA: 大規模分子言語モデルにおける分子の一般的理解に向けて

Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model

February 19, 2025
著者: Dongki Kim, Wonbin Lee, Sung Ju Hwang
cs.AI

要旨

分子を理解することは、生物を理解し、創薬の進展を推進する上で鍵となります。これには、化学と生物学にまたがる学際的な知識が必要です。大規模な分子言語モデルは分子構造の解釈において顕著な成功を収めていますが、その指示データセットはタスク指向のデータセットに限定されており、分子の基本的な特性を完全にはカバーしていないため、汎用分子アシスタントとしての能力が制限されています。この問題を解決するため、我々はMol-LLaMAを提案します。これは、マルチモーダルな指示チューニングを通じて分子を中心とした一般的な知識を把握する大規模分子言語モデルです。この目的のために、分子の基本的な特徴を網羅する主要なデータタイプを設計し、分子構造からの重要な知識を組み込みました。さらに、分子の特徴の理解を向上させるために、異なる分子エンコーダーからの補完的な情報を統合するモジュールを導入し、異なる分子表現の独自の利点を活用します。実験結果は、Mol-LLaMAが分子の一般的な特徴を理解し、ユーザーのクエリに対して詳細な説明を伴った関連する応答を生成できることを示しており、分子分析のための汎用アシスタントとしての可能性を示唆しています。
English
Understanding molecules is key to understanding organisms and driving advances in drug discovery, requiring interdisciplinary knowledge across chemistry and biology. Although large molecular language models have achieved notable success in interpreting molecular structures, their instruction datasets are limited to the specific knowledge from task-oriented datasets and do not fully cover the fundamental characteristics of molecules, hindering their abilities as general-purpose molecular assistants. To address this issue, we propose Mol-LLaMA, a large molecular language model that grasps the general knowledge centered on molecules via multi-modal instruction tuning. To this end, we design key data types that encompass the fundamental features of molecules, incorporating essential knowledge from molecular structures. In addition, to improve understanding of molecular features, we introduce a module that integrates complementary information from different molecular encoders, leveraging the distinct advantages of different molecular representations. Our experimental results demonstrate that Mol-LLaMA is capable of comprehending the general features of molecules and generating relevant responses to users' queries with detailed explanations, implying its potential as a general-purpose assistant for molecular analysis.

Summary

AI-Generated Summary

PDF462February 24, 2025