Mol-LLaMA : Vers une compréhension générale des molécules dans un grand modèle de langage moléculaire
Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model
February 19, 2025
Auteurs: Dongki Kim, Wonbin Lee, Sung Ju Hwang
cs.AI
Résumé
Comprendre les molécules est essentiel pour comprendre les organismes et stimuler les avancées dans la découverte de médicaments, ce qui nécessite des connaissances interdisciplinaires en chimie et en biologie. Bien que les grands modèles de langage moléculaire aient obtenu des succès notables dans l'interprétation des structures moléculaires, leurs jeux de données d'instruction se limitent aux connaissances spécifiques issues de jeux de données orientés tâches et ne couvrent pas pleinement les caractéristiques fondamentales des molécules, entravant ainsi leurs capacités en tant qu'assistants moléculaires polyvalents. Pour résoudre ce problème, nous proposons Mol-LLaMA, un grand modèle de langage moléculaire qui saisit les connaissances générales centrées sur les molécules via un réglage d'instruction multimodal. À cette fin, nous concevons des types de données clés qui englobent les caractéristiques fondamentales des molécules, en intégrant des connaissances essentielles issues des structures moléculaires. De plus, pour améliorer la compréhension des caractéristiques moléculaires, nous introduisons un module qui intègre des informations complémentaires provenant de différents encodeurs moléculaires, en tirant parti des avantages distincts des différentes représentations moléculaires. Nos résultats expérimentaux démontrent que Mol-LLaMA est capable de comprendre les caractéristiques générales des molécules et de générer des réponses pertinentes aux requêtes des utilisateurs avec des explications détaillées, suggérant son potentiel en tant qu'assistant polyvalent pour l'analyse moléculaire.
English
Understanding molecules is key to understanding organisms and driving
advances in drug discovery, requiring interdisciplinary knowledge across
chemistry and biology. Although large molecular language models have achieved
notable success in interpreting molecular structures, their instruction
datasets are limited to the specific knowledge from task-oriented datasets and
do not fully cover the fundamental characteristics of molecules, hindering
their abilities as general-purpose molecular assistants. To address this issue,
we propose Mol-LLaMA, a large molecular language model that grasps the general
knowledge centered on molecules via multi-modal instruction tuning. To this
end, we design key data types that encompass the fundamental features of
molecules, incorporating essential knowledge from molecular structures. In
addition, to improve understanding of molecular features, we introduce a module
that integrates complementary information from different molecular encoders,
leveraging the distinct advantages of different molecular representations. Our
experimental results demonstrate that Mol-LLaMA is capable of comprehending the
general features of molecules and generating relevant responses to users'
queries with detailed explanations, implying its potential as a general-purpose
assistant for molecular analysis.Summary
AI-Generated Summary