Улучшение химического понимания языковых моделей через парсинг SMILES
Improving Chemical Understanding of LLMs via SMILES Parsing
May 22, 2025
Авторы: Yunhui Jang, Jaehyung Kim, Sungsoo Ahn
cs.AI
Аннотация
Крупные языковые модели (LLM) всё чаще признаются мощным инструментом для научных открытий, особенно в области молекулярных наук. Основным требованием для этих моделей является способность точно понимать молекулярные структуры, которые обычно кодируются в представлении SMILES. Однако современные LLM испытывают трудности с интерпретацией SMILES, даже не справляясь с базовыми задачами, такими как подсчёт молекулярных колец. Чтобы устранить это ограничение, мы представляем CLEANMOL — новый фреймворк, который формулирует парсинг SMILES в виде набора чистых и детерминированных задач, явно разработанных для улучшения понимания молекулярных структур на уровне графов. Эти задачи варьируются от сопоставления подграфов до глобального сопоставления графов, обеспечивая структурированное обучение, согласованное с молекулярными структурными свойствами. Мы создаём молекулярный предобучающий набор данных с адаптивной оценкой сложности и предобучаем открытые LLM на этих задачах. Наши результаты показывают, что CLEANMOL не только улучшает понимание структур, но также демонстрирует наилучшие результаты или конкурирует с базовыми моделями на бенчмарке Mol-Instructions.
English
Large language models (LLMs) are increasingly recognized as powerful tools
for scientific discovery, particularly in molecular science. A fundamental
requirement for these models is the ability to accurately understand molecular
structures, commonly encoded in the SMILES representation. However, current
LLMs struggle to interpret SMILES, even failing to carry out basic tasks such
as counting molecular rings. To address this limitation, we introduce CLEANMOL,
a novel framework that formulates SMILES parsing into a suite of clean and
deterministic tasks explicitly designed to promote graph-level molecular
comprehension. These tasks span from subgraph matching to global graph
matching, providing structured supervision aligned with molecular structural
properties. We construct a molecular pretraining dataset with adaptive
difficulty scoring and pre-train open-source LLMs on these tasks. Our results
show that CLEANMOL not only enhances structural comprehension but also achieves
the best or competes with the baseline on the Mol-Instructions benchmark.Summary
AI-Generated Summary