Verbesserung des chemischen Verständnisses von LLMs durch SMILES-Parsing
Improving Chemical Understanding of LLMs via SMILES Parsing
May 22, 2025
Autoren: Yunhui Jang, Jaehyung Kim, Sungsoo Ahn
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) werden zunehmend als leistungsstarke Werkzeuge für wissenschaftliche Entdeckungen anerkannt, insbesondere in der Molekularwissenschaft. Eine grundlegende Anforderung an diese Modelle ist die Fähigkeit, molekulare Strukturen präzise zu verstehen, die üblicherweise in der SMILES-Darstellung kodiert sind. Allerdings haben aktuelle LLMs Schwierigkeiten, SMILES zu interpretieren, und scheitern sogar an grundlegenden Aufgaben wie dem Zählen von molekularen Ringen. Um diese Einschränkung zu überwinden, stellen wir CLEANMOL vor, ein neuartiges Framework, das das Parsen von SMILES in eine Reihe von klaren und deterministischen Aufgaben formuliert, die explizit darauf ausgelegt sind, das Verständnis auf Graphenebene für molekulare Strukturen zu fördern. Diese Aufgaben reichen von der Subgraph-Erkennung bis zum globalen Graph-Abgleich und bieten strukturierte Supervision, die mit den strukturellen Eigenschaften von Molekülen abgestimmt ist. Wir erstellen einen molekularen Pretraining-Datensatz mit adaptiver Schwierigkeitsbewertung und trainieren Open-Source-LLMs auf diesen Aufgaben. Unsere Ergebnisse zeigen, dass CLEANMOL nicht nur das strukturelle Verständnis verbessert, sondern auch die besten Ergebnisse auf dem Mol-Instructions-Benchmark erzielt oder mit den Baselines konkurriert.
English
Large language models (LLMs) are increasingly recognized as powerful tools
for scientific discovery, particularly in molecular science. A fundamental
requirement for these models is the ability to accurately understand molecular
structures, commonly encoded in the SMILES representation. However, current
LLMs struggle to interpret SMILES, even failing to carry out basic tasks such
as counting molecular rings. To address this limitation, we introduce CLEANMOL,
a novel framework that formulates SMILES parsing into a suite of clean and
deterministic tasks explicitly designed to promote graph-level molecular
comprehension. These tasks span from subgraph matching to global graph
matching, providing structured supervision aligned with molecular structural
properties. We construct a molecular pretraining dataset with adaptive
difficulty scoring and pre-train open-source LLMs on these tasks. Our results
show that CLEANMOL not only enhances structural comprehension but also achieves
the best or competes with the baseline on the Mol-Instructions benchmark.Summary
AI-Generated Summary