ChatPaper.aiChatPaper

Mol-LLaMA: Rumo à Compreensão Geral de Moléculas em um Grande Modelo de Linguagem Molecular

Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model

February 19, 2025
Autores: Dongki Kim, Wonbin Lee, Sung Ju Hwang
cs.AI

Resumo

Compreender moléculas é fundamental para entender organismos e impulsionar avanços na descoberta de medicamentos, exigindo conhecimento interdisciplinar em química e biologia. Embora grandes modelos de linguagem molecular tenham alcançado sucesso notável na interpretação de estruturas moleculares, seus conjuntos de dados de instrução são limitados ao conhecimento específico de conjuntos de dados orientados por tarefas e não cobrem plenamente as características fundamentais das moléculas, prejudicando suas habilidades como assistentes moleculares de propósito geral. Para resolver essa questão, propomos o Mol-LLaMA, um grande modelo de linguagem molecular que compreende o conhecimento geral centrado em moléculas por meio de ajuste fino de instruções multimodais. Para isso, projetamos tipos de dados-chave que abrangem as características fundamentais das moléculas, incorporando conhecimento essencial de estruturas moleculares. Além disso, para melhorar a compreensão das características moleculares, introduzimos um módulo que integra informações complementares de diferentes codificadores moleculares, aproveitando as vantagens distintas de diferentes representações moleculares. Nossos resultados experimentais demonstram que o Mol-LLaMA é capaz de compreender as características gerais das moléculas e gerar respostas relevantes às consultas dos usuários com explicações detalhadas, indicando seu potencial como um assistente de propósito geral para análise molecular.
English
Understanding molecules is key to understanding organisms and driving advances in drug discovery, requiring interdisciplinary knowledge across chemistry and biology. Although large molecular language models have achieved notable success in interpreting molecular structures, their instruction datasets are limited to the specific knowledge from task-oriented datasets and do not fully cover the fundamental characteristics of molecules, hindering their abilities as general-purpose molecular assistants. To address this issue, we propose Mol-LLaMA, a large molecular language model that grasps the general knowledge centered on molecules via multi-modal instruction tuning. To this end, we design key data types that encompass the fundamental features of molecules, incorporating essential knowledge from molecular structures. In addition, to improve understanding of molecular features, we introduce a module that integrates complementary information from different molecular encoders, leveraging the distinct advantages of different molecular representations. Our experimental results demonstrate that Mol-LLaMA is capable of comprehending the general features of molecules and generating relevant responses to users' queries with detailed explanations, implying its potential as a general-purpose assistant for molecular analysis.

Summary

AI-Generated Summary

PDF462February 24, 2025