LLaMo: Ассистент по молекулярным графам на основе большой языковой модели
LLaMo: Large Language Model-based Molecular Graph Assistant
October 31, 2024
Авторы: Jinyoung Park, Minseong Bae, Dohwan Ko, Hyunwoo J. Kim
cs.AI
Аннотация
Большие языковые модели (LLM) продемонстрировали выдающиеся обобщающие и способности к следованию инструкциям с настройкой инструкций. Прогресс в области LLM и настройки инструкций привел к разработке больших моделей видео-языкового восприятия (LVLM). Однако компетентность LLM и настройки инструкций меньше исследована в молекулярной области. Поэтому мы предлагаем LLaMo: молекулярный графический ассистент на основе большой языковой модели, обученной end-to-end. Для устранения разрыва между языковыми и графическими модальностями мы представляем многоуровневый графический проектор, который преобразует графические представления в графические токены, абстрагируя выходные представления каждого слоя GNN и мотивные представления с механизмом кросс-внимания. Мы также вводим машинно-сгенерированные данные инструкций молекулярных графов для настройки инструкций большой молекулярной графической языковой модели для понимания молекул и языка общего назначения. Наши обширные эксперименты показывают, что LLaMo демонстрирует лучшую производительность на различных задачах, таких как генерация описания молекул, предсказание свойств и предсказание имен IUPAC. Код LLaMo доступен по адресу https://github.com/mlvlab/LLaMo.
English
Large Language Models (LLMs) have demonstrated remarkable generalization and
instruction-following capabilities with instruction tuning. The advancements in
LLMs and instruction tuning have led to the development of Large
Vision-Language Models (LVLMs). However, the competency of the LLMs and
instruction tuning have been less explored in the molecular domain. Thus, we
propose LLaMo: Large Language Model-based Molecular graph assistant, which is
an end-to-end trained large molecular graph-language model. To bridge the
discrepancy between the language and graph modalities, we present the
multi-level graph projector that transforms graph representations into graph
tokens by abstracting the output representations of each GNN layer and motif
representations with the cross-attention mechanism. We also introduce
machine-generated molecular graph instruction data to instruction-tune the
large molecular graph-language model for general-purpose molecule and language
understanding. Our extensive experiments demonstrate that LLaMo shows the best
performance on diverse tasks, such as molecular description generation,
property prediction, and IUPAC name prediction. The code of LLaMo is available
at https://github.com/mlvlab/LLaMo.Summary
AI-Generated Summary