Amélioration de la compréhension chimique des LLM via l'analyse de SMILES
Improving Chemical Understanding of LLMs via SMILES Parsing
May 22, 2025
Auteurs: Yunhui Jang, Jaehyung Kim, Sungsoo Ahn
cs.AI
Résumé
Les grands modèles de langage (LLMs) sont de plus en plus reconnus comme des outils puissants pour la découverte scientifique, en particulier dans le domaine des sciences moléculaires. Une exigence fondamentale pour ces modèles est la capacité à comprendre avec précision les structures moléculaires, généralement encodées dans la représentation SMILES. Cependant, les LLMs actuels peinent à interpréter les SMILES, échouant même à accomplir des tâches basiques telles que le comptage des cycles moléculaires. Pour pallier cette limitation, nous introduisons CLEANMOL, un cadre novateur qui formule l'analyse des SMILES en une série de tâches propres et déterministes, explicitement conçues pour favoriser la compréhension moléculaire au niveau des graphes. Ces tâches vont de la correspondance de sous-graphes à la correspondance globale de graphes, fournissant une supervision structurée alignée avec les propriétés structurales moléculaires. Nous construisons un ensemble de données de pré-entraînement moléculaire avec un système de notation adaptative de la difficulté et pré-entraînons des LLMs open-source sur ces tâches. Nos résultats montrent que CLEANMOL améliore non seulement la compréhension structurelle, mais obtient également les meilleurs résultats ou rivalise avec la référence sur le benchmark Mol-Instructions.
English
Large language models (LLMs) are increasingly recognized as powerful tools
for scientific discovery, particularly in molecular science. A fundamental
requirement for these models is the ability to accurately understand molecular
structures, commonly encoded in the SMILES representation. However, current
LLMs struggle to interpret SMILES, even failing to carry out basic tasks such
as counting molecular rings. To address this limitation, we introduce CLEANMOL,
a novel framework that formulates SMILES parsing into a suite of clean and
deterministic tasks explicitly designed to promote graph-level molecular
comprehension. These tasks span from subgraph matching to global graph
matching, providing structured supervision aligned with molecular structural
properties. We construct a molecular pretraining dataset with adaptive
difficulty scoring and pre-train open-source LLMs on these tasks. Our results
show that CLEANMOL not only enhances structural comprehension but also achieves
the best or competes with the baseline on the Mol-Instructions benchmark.Summary
AI-Generated Summary