Mol-LLaMA: Rumo à Compreensão Geral de Moléculas em um Grande Modelo de Linguagem Molecular
Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model
February 19, 2025
Autores: Dongki Kim, Wonbin Lee, Sung Ju Hwang
cs.AI
Resumo
Compreender moléculas é fundamental para entender organismos e impulsionar avanços na descoberta de medicamentos, exigindo conhecimento interdisciplinar em química e biologia. Embora grandes modelos de linguagem molecular tenham alcançado sucesso notável na interpretação de estruturas moleculares, seus conjuntos de dados de instrução são limitados ao conhecimento específico de conjuntos de dados orientados por tarefas e não cobrem plenamente as características fundamentais das moléculas, prejudicando suas habilidades como assistentes moleculares de propósito geral. Para resolver essa questão, propomos o Mol-LLaMA, um grande modelo de linguagem molecular que compreende o conhecimento geral centrado em moléculas por meio de ajuste fino de instruções multimodais. Para isso, projetamos tipos de dados-chave que abrangem as características fundamentais das moléculas, incorporando conhecimento essencial de estruturas moleculares. Além disso, para melhorar a compreensão das características moleculares, introduzimos um módulo que integra informações complementares de diferentes codificadores moleculares, aproveitando as vantagens distintas de diferentes representações moleculares. Nossos resultados experimentais demonstram que o Mol-LLaMA é capaz de compreender as características gerais das moléculas e gerar respostas relevantes às consultas dos usuários com explicações detalhadas, indicando seu potencial como um assistente de propósito geral para análise molecular.
English
Understanding molecules is key to understanding organisms and driving
advances in drug discovery, requiring interdisciplinary knowledge across
chemistry and biology. Although large molecular language models have achieved
notable success in interpreting molecular structures, their instruction
datasets are limited to the specific knowledge from task-oriented datasets and
do not fully cover the fundamental characteristics of molecules, hindering
their abilities as general-purpose molecular assistants. To address this issue,
we propose Mol-LLaMA, a large molecular language model that grasps the general
knowledge centered on molecules via multi-modal instruction tuning. To this
end, we design key data types that encompass the fundamental features of
molecules, incorporating essential knowledge from molecular structures. In
addition, to improve understanding of molecular features, we introduce a module
that integrates complementary information from different molecular encoders,
leveraging the distinct advantages of different molecular representations. Our
experimental results demonstrate that Mol-LLaMA is capable of comprehending the
general features of molecules and generating relevant responses to users'
queries with detailed explanations, implying its potential as a general-purpose
assistant for molecular analysis.Summary
AI-Generated Summary