Улучшение химического понимания языковых моделей через парсинг SMILES

Аннотация

Крупные языковые модели (LLM) всё чаще признаются мощным инструментом для научных открытий, особенно в области молекулярных наук. Основным требованием для этих моделей является способность точно понимать молекулярные структуры, которые обычно кодируются в представлении SMILES. Однако современные LLM испытывают трудности с интерпретацией SMILES, даже не справляясь с базовыми задачами, такими как подсчёт молекулярных колец. Чтобы устранить это ограничение, мы представляем CLEANMOL — новый фреймворк, который формулирует парсинг SMILES в виде набора чистых и детерминированных задач, явно разработанных для улучшения понимания молекулярных структур на уровне графов. Эти задачи варьируются от сопоставления подграфов до глобального сопоставления графов, обеспечивая структурированное обучение, согласованное с молекулярными структурными свойствами. Мы создаём молекулярный предобучающий набор данных с адаптивной оценкой сложности и предобучаем открытые LLM на этих задачах. Наши результаты показывают, что CLEANMOL не только улучшает понимание структур, но также демонстрирует наилучшие результаты или конкурирует с базовыми моделями на бенчмарке Mol-Instructions.

English

Large language models (LLMs) are increasingly recognized as powerful tools for scientific discovery, particularly in molecular science. A fundamental requirement for these models is the ability to accurately understand molecular structures, commonly encoded in the SMILES representation. However, current LLMs struggle to interpret SMILES, even failing to carry out basic tasks such as counting molecular rings. To address this limitation, we introduce CLEANMOL, a novel framework that formulates SMILES parsing into a suite of clean and deterministic tasks explicitly designed to promote graph-level molecular comprehension. These tasks span from subgraph matching to global graph matching, providing structured supervision aligned with molecular structural properties. We construct a molecular pretraining dataset with adaptive difficulty scoring and pre-train open-source LLMs on these tasks. Our results show that CLEANMOL not only enhances structural comprehension but also achieves the best or competes with the baseline on the Mol-Instructions benchmark.

Улучшение химического понимания языковых моделей через парсинг SMILES

Improving Chemical Understanding of LLMs via SMILES Parsing

Аннотация

Support