ChatPaper.aiChatPaper

Mejorando la comprensión química de los LLM mediante el análisis de SMILES

Improving Chemical Understanding of LLMs via SMILES Parsing

May 22, 2025
Autores: Yunhui Jang, Jaehyung Kim, Sungsoo Ahn
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) son cada vez más reconocidos como herramientas poderosas para el descubrimiento científico, particularmente en el ámbito de las ciencias moleculares. Un requisito fundamental para estos modelos es la capacidad de comprender con precisión las estructuras moleculares, comúnmente codificadas en la representación SMILES. Sin embargo, los LLMs actuales tienen dificultades para interpretar SMILES, incluso fallando en tareas básicas como contar anillos moleculares. Para abordar esta limitación, presentamos CLEANMOL, un marco novedoso que formula el análisis de SMILES en un conjunto de tareas limpias y deterministas diseñadas explícitamente para promover la comprensión molecular a nivel de grafos. Estas tareas abarcan desde la coincidencia de subgrafos hasta la coincidencia de grafos globales, proporcionando supervisión estructurada alineada con las propiedades estructurales moleculares. Construimos un conjunto de datos de preentrenamiento molecular con puntuación de dificultad adaptativa y preentrenamos LLMs de código abierto en estas tareas. Nuestros resultados muestran que CLEANMOL no solo mejora la comprensión estructural, sino que también logra el mejor rendimiento o compite con la línea base en el benchmark Mol-Instructions.
English
Large language models (LLMs) are increasingly recognized as powerful tools for scientific discovery, particularly in molecular science. A fundamental requirement for these models is the ability to accurately understand molecular structures, commonly encoded in the SMILES representation. However, current LLMs struggle to interpret SMILES, even failing to carry out basic tasks such as counting molecular rings. To address this limitation, we introduce CLEANMOL, a novel framework that formulates SMILES parsing into a suite of clean and deterministic tasks explicitly designed to promote graph-level molecular comprehension. These tasks span from subgraph matching to global graph matching, providing structured supervision aligned with molecular structural properties. We construct a molecular pretraining dataset with adaptive difficulty scoring and pre-train open-source LLMs on these tasks. Our results show that CLEANMOL not only enhances structural comprehension but also achieves the best or competes with the baseline on the Mol-Instructions benchmark.

Summary

AI-Generated Summary

PDF12May 28, 2025