Migliorare la comprensione chimica dei LLM tramite l'analisi di SMILES
Improving Chemical Understanding of LLMs via SMILES Parsing
May 22, 2025
Autori: Yunhui Jang, Jaehyung Kim, Sungsoo Ahn
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) sono sempre più riconosciuti come strumenti potenti per la scoperta scientifica, in particolare nelle scienze molecolari. Un requisito fondamentale per questi modelli è la capacità di comprendere accuratamente le strutture molecolari, comunemente codificate nella rappresentazione SMILES. Tuttavia, gli attuali LLM faticano a interpretare SMILES, fallendo persino in compiti di base come il conteggio degli anelli molecolari. Per affrontare questa limitazione, introduciamo CLEANMOL, un nuovo framework che formula l'analisi di SMILES in una serie di compiti puliti e deterministici progettati esplicitamente per promuovere la comprensione molecolare a livello di grafo. Questi compiti spaziano dalla corrispondenza di sottografi alla corrispondenza globale di grafi, fornendo una supervisione strutturata allineata con le proprietà strutturali molecolari. Costruiamo un dataset di pre-addestramento molecolare con punteggi di difficoltà adattivi e pre-addestriamo LLM open-source su questi compiti. I nostri risultati dimostrano che CLEANMOL non solo migliora la comprensione strutturale, ma ottiene anche i migliori risultati o compete con il baseline sul benchmark Mol-Instructions.
English
Large language models (LLMs) are increasingly recognized as powerful tools
for scientific discovery, particularly in molecular science. A fundamental
requirement for these models is the ability to accurately understand molecular
structures, commonly encoded in the SMILES representation. However, current
LLMs struggle to interpret SMILES, even failing to carry out basic tasks such
as counting molecular rings. To address this limitation, we introduce CLEANMOL,
a novel framework that formulates SMILES parsing into a suite of clean and
deterministic tasks explicitly designed to promote graph-level molecular
comprehension. These tasks span from subgraph matching to global graph
matching, providing structured supervision aligned with molecular structural
properties. We construct a molecular pretraining dataset with adaptive
difficulty scoring and pre-train open-source LLMs on these tasks. Our results
show that CLEANMOL not only enhances structural comprehension but also achieves
the best or competes with the baseline on the Mol-Instructions benchmark.