Mol-LLaMA: 대규모 분자 언어 모델을 통한 분자 일반 이해를 향하여
Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model
February 19, 2025
저자: Dongki Kim, Wonbin Lee, Sung Ju Hwang
cs.AI
초록
분자를 이해하는 것은 생물체를 이해하고 신약 개발의 진전을 이끌어내는 데 있어 핵심적이며, 이를 위해서는 화학과 생물학에 걸친 학제적 지식이 요구됩니다. 대규모 분자 언어 모델이 분자 구조 해석에서 주목할 만한 성과를 거두었지만, 이들의 지시 데이터셋은 과제 중심 데이터셋에서 얻은 특정 지식에 국한되어 분자의 기본 특성을 완전히 포괄하지 못함으로써 일반적인 분자 분석 도구로서의 능력을 제한하고 있습니다. 이 문제를 해결하기 위해, 우리는 다중 모드 지시 튜닝을 통해 분자 중심의 일반 지식을 파악하는 대규모 분자 언어 모델인 Mol-LLaMA를 제안합니다. 이를 위해, 우리는 분자의 기본 특성을 포괄하는 핵심 데이터 유형을 설계하고, 분자 구조에서 필수적인 지식을 통합하였습니다. 또한, 분자 특성에 대한 이해를 향상시키기 위해, 서로 다른 분자 인코더로부터 보완적인 정보를 통합하는 모듈을 도입하여 다양한 분자 표현의 독특한 장점을 활용하였습니다. 우리의 실험 결과는 Mol-LLaMA가 분자의 일반적인 특성을 이해하고 사용자의 질문에 대한 관련 응답을 상세한 설명과 함께 생성할 수 있음을 보여주며, 이는 분자 분석을 위한 일반적인 도구로서의 잠재력을 시사합니다.
English
Understanding molecules is key to understanding organisms and driving
advances in drug discovery, requiring interdisciplinary knowledge across
chemistry and biology. Although large molecular language models have achieved
notable success in interpreting molecular structures, their instruction
datasets are limited to the specific knowledge from task-oriented datasets and
do not fully cover the fundamental characteristics of molecules, hindering
their abilities as general-purpose molecular assistants. To address this issue,
we propose Mol-LLaMA, a large molecular language model that grasps the general
knowledge centered on molecules via multi-modal instruction tuning. To this
end, we design key data types that encompass the fundamental features of
molecules, incorporating essential knowledge from molecular structures. In
addition, to improve understanding of molecular features, we introduce a module
that integrates complementary information from different molecular encoders,
leveraging the distinct advantages of different molecular representations. Our
experimental results demonstrate that Mol-LLaMA is capable of comprehending the
general features of molecules and generating relevant responses to users'
queries with detailed explanations, implying its potential as a general-purpose
assistant for molecular analysis.Summary
AI-Generated Summary