ChatPaper.aiChatPaper

Melhorando a Compreensão Química de LLMs por meio da Análise de SMILES

Improving Chemical Understanding of LLMs via SMILES Parsing

May 22, 2025
Autores: Yunhui Jang, Jaehyung Kim, Sungsoo Ahn
cs.AI

Resumo

Os grandes modelos de linguagem (LLMs) são cada vez mais reconhecidos como ferramentas poderosas para a descoberta científica, particularmente na ciência molecular. Um requisito fundamental para esses modelos é a capacidade de compreender com precisão estruturas moleculares, comumente codificadas na representação SMILES. No entanto, os LLMs atuais têm dificuldade em interpretar SMILES, falhando até mesmo em realizar tarefas básicas, como contar anéis moleculares. Para abordar essa limitação, introduzimos o CLEANMOL, uma estrutura inovadora que formula a análise de SMILES em um conjunto de tarefas limpas e determinísticas, explicitamente projetadas para promover a compreensão molecular em nível de grafo. Essas tarefas variam desde a correspondência de subgrafos até a correspondência de grafos globais, fornecendo supervisão estruturada alinhada com as propriedades estruturais moleculares. Construímos um conjunto de dados de pré-treinamento molecular com pontuação de dificuldade adaptativa e pré-treinamos LLMs de código aberto nessas tarefas. Nossos resultados mostram que o CLEANMOL não apenas melhora a compreensão estrutural, mas também alcança o melhor desempenho ou compete com a linha de base no benchmark Mol-Instructions.
English
Large language models (LLMs) are increasingly recognized as powerful tools for scientific discovery, particularly in molecular science. A fundamental requirement for these models is the ability to accurately understand molecular structures, commonly encoded in the SMILES representation. However, current LLMs struggle to interpret SMILES, even failing to carry out basic tasks such as counting molecular rings. To address this limitation, we introduce CLEANMOL, a novel framework that formulates SMILES parsing into a suite of clean and deterministic tasks explicitly designed to promote graph-level molecular comprehension. These tasks span from subgraph matching to global graph matching, providing structured supervision aligned with molecular structural properties. We construct a molecular pretraining dataset with adaptive difficulty scoring and pre-train open-source LLMs on these tasks. Our results show that CLEANMOL not only enhances structural comprehension but also achieves the best or competes with the baseline on the Mol-Instructions benchmark.
PDF12December 4, 2025