Mol-LLaMA: К общему пониманию молекул в крупной молекулярной языковой модели
Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model
February 19, 2025
Авторы: Dongki Kim, Wonbin Lee, Sung Ju Hwang
cs.AI
Аннотация
Понимание молекул является ключом к пониманию организмов и продвижению в области разработки лекарств, что требует междисциплинарных знаний в химии и биологии. Хотя крупные языковые модели для молекул достигли значительных успехов в интерпретации молекулярных структур, их обучающие наборы данных ограничены специфическими знаниями из целевых наборов и не охватывают полностью фундаментальные характеристики молекул, что ограничивает их возможности в качестве универсальных помощников для работы с молекулами. Чтобы решить эту проблему, мы предлагаем Mol-LLaMA — крупную языковую модель для молекул, которая осваивает общие знания, сосредоточенные на молекулах, с помощью мультимодальной настройки на инструкциях. Для этого мы разрабатываем ключевые типы данных, охватывающие фундаментальные особенности молекул, включая важные знания о молекулярных структурах. Кроме того, для улучшения понимания молекулярных характеристик мы вводим модуль, который интегрирует дополнительную информацию из различных молекулярных кодировщиков, используя уникальные преимущества разных способов представления молекул. Наши экспериментальные результаты показывают, что Mol-LLaMA способна понимать общие характеристики молекул и генерировать релевантные ответы на запросы пользователей с подробными объяснениями, что указывает на её потенциал в качестве универсального помощника для молекулярного анализа.
English
Understanding molecules is key to understanding organisms and driving
advances in drug discovery, requiring interdisciplinary knowledge across
chemistry and biology. Although large molecular language models have achieved
notable success in interpreting molecular structures, their instruction
datasets are limited to the specific knowledge from task-oriented datasets and
do not fully cover the fundamental characteristics of molecules, hindering
their abilities as general-purpose molecular assistants. To address this issue,
we propose Mol-LLaMA, a large molecular language model that grasps the general
knowledge centered on molecules via multi-modal instruction tuning. To this
end, we design key data types that encompass the fundamental features of
molecules, incorporating essential knowledge from molecular structures. In
addition, to improve understanding of molecular features, we introduce a module
that integrates complementary information from different molecular encoders,
leveraging the distinct advantages of different molecular representations. Our
experimental results demonstrate that Mol-LLaMA is capable of comprehending the
general features of molecules and generating relevant responses to users'
queries with detailed explanations, implying its potential as a general-purpose
assistant for molecular analysis.Summary
AI-Generated Summary