Amélioration de la compréhension chimique des LLM via l'analyse de SMILES

papers.abstract

Les grands modèles de langage (LLMs) sont de plus en plus reconnus comme des outils puissants pour la découverte scientifique, en particulier dans le domaine des sciences moléculaires. Une exigence fondamentale pour ces modèles est la capacité à comprendre avec précision les structures moléculaires, généralement encodées dans la représentation SMILES. Cependant, les LLMs actuels peinent à interpréter les SMILES, échouant même à accomplir des tâches basiques telles que le comptage des cycles moléculaires. Pour pallier cette limitation, nous introduisons CLEANMOL, un cadre novateur qui formule l'analyse des SMILES en une série de tâches propres et déterministes, explicitement conçues pour favoriser la compréhension moléculaire au niveau des graphes. Ces tâches vont de la correspondance de sous-graphes à la correspondance globale de graphes, fournissant une supervision structurée alignée avec les propriétés structurales moléculaires. Nous construisons un ensemble de données de pré-entraînement moléculaire avec un système de notation adaptative de la difficulté et pré-entraînons des LLMs open-source sur ces tâches. Nos résultats montrent que CLEANMOL améliore non seulement la compréhension structurelle, mais obtient également les meilleurs résultats ou rivalise avec la référence sur le benchmark Mol-Instructions.

English

Large language models (LLMs) are increasingly recognized as powerful tools for scientific discovery, particularly in molecular science. A fundamental requirement for these models is the ability to accurately understand molecular structures, commonly encoded in the SMILES representation. However, current LLMs struggle to interpret SMILES, even failing to carry out basic tasks such as counting molecular rings. To address this limitation, we introduce CLEANMOL, a novel framework that formulates SMILES parsing into a suite of clean and deterministic tasks explicitly designed to promote graph-level molecular comprehension. These tasks span from subgraph matching to global graph matching, providing structured supervision aligned with molecular structural properties. We construct a molecular pretraining dataset with adaptive difficulty scoring and pre-train open-source LLMs on these tasks. Our results show that CLEANMOL not only enhances structural comprehension but also achieves the best or competes with the baseline on the Mol-Instructions benchmark.

Amélioration de la compréhension chimique des LLM via l'analyse de SMILES

Improving Chemical Understanding of LLMs via SMILES Parsing

papers.abstract

Support