Mol-LLaMA: 大規模分子言語モデルにおける分子の一般的理解に向けて
Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model
February 19, 2025
著者: Dongki Kim, Wonbin Lee, Sung Ju Hwang
cs.AI
要旨
分子を理解することは、生物を理解し、創薬の進展を推進する上で鍵となります。これには、化学と生物学にまたがる学際的な知識が必要です。大規模な分子言語モデルは分子構造の解釈において顕著な成功を収めていますが、その指示データセットはタスク指向のデータセットに限定されており、分子の基本的な特性を完全にはカバーしていないため、汎用分子アシスタントとしての能力が制限されています。この問題を解決するため、我々はMol-LLaMAを提案します。これは、マルチモーダルな指示チューニングを通じて分子を中心とした一般的な知識を把握する大規模分子言語モデルです。この目的のために、分子の基本的な特徴を網羅する主要なデータタイプを設計し、分子構造からの重要な知識を組み込みました。さらに、分子の特徴の理解を向上させるために、異なる分子エンコーダーからの補完的な情報を統合するモジュールを導入し、異なる分子表現の独自の利点を活用します。実験結果は、Mol-LLaMAが分子の一般的な特徴を理解し、ユーザーのクエリに対して詳細な説明を伴った関連する応答を生成できることを示しており、分子分析のための汎用アシスタントとしての可能性を示唆しています。
English
Understanding molecules is key to understanding organisms and driving
advances in drug discovery, requiring interdisciplinary knowledge across
chemistry and biology. Although large molecular language models have achieved
notable success in interpreting molecular structures, their instruction
datasets are limited to the specific knowledge from task-oriented datasets and
do not fully cover the fundamental characteristics of molecules, hindering
their abilities as general-purpose molecular assistants. To address this issue,
we propose Mol-LLaMA, a large molecular language model that grasps the general
knowledge centered on molecules via multi-modal instruction tuning. To this
end, we design key data types that encompass the fundamental features of
molecules, incorporating essential knowledge from molecular structures. In
addition, to improve understanding of molecular features, we introduce a module
that integrates complementary information from different molecular encoders,
leveraging the distinct advantages of different molecular representations. Our
experimental results demonstrate that Mol-LLaMA is capable of comprehending the
general features of molecules and generating relevant responses to users'
queries with detailed explanations, implying its potential as a general-purpose
assistant for molecular analysis.Summary
AI-Generated Summary