GTR-CoT: Recorrido de Grafos como Cadena de Pensamiento Visual para el Reconocimiento de Estructuras Moleculares
GTR-CoT: Graph Traversal as Visual Chain of Thought for Molecular Structure Recognition
June 9, 2025
Autores: Jingchao Wang, Haote Yang, Jiang Wu, Yifan He, Xingjian Wei, Yinfan Wang, Chengjin Liu, Lingli Ge, Lijun Wu, Bin Wang, Dahua Lin, Conghui He
cs.AI
Resumen
El Reconocimiento Óptico de Estructuras Químicas (OCSR, por sus siglas en inglés) es crucial para la digitalización del conocimiento químico al convertir imágenes moleculares en formatos legibles por máquinas. Si bien los modelos de visión y lenguaje (VLMs) recientes han mostrado potencial en esta tarea, su enfoque de generación de subtítulos a partir de imágenes a menudo enfrenta dificultades con estructuras moleculares complejas y anotaciones inconsistentes. Para superar estos desafíos, presentamos GTR-Mol-VLM, un marco novedoso que incluye dos innovaciones clave: (1) el mecanismo de Recorrido de Grafos como Cadena de Pensamiento Visual, que emula el razonamiento humano al analizar incrementalmente grafos moleculares mediante predicciones secuenciales de átomos y enlaces, y (2) el principio centrado en los datos de "Reconocer Fielmente lo que has Visto", que aborda la discrepancia entre las estructuras abreviadas en las imágenes y sus anotaciones expandidas. Para apoyar el desarrollo del modelo, construimos GTR-CoT-1.3M, un conjunto de datos de ajuste de instrucciones a gran escala con anotaciones meticulosamente corregidas, e introdujimos MolRec-Bench, el primer punto de referencia diseñado para una evaluación detallada de la precisión en el análisis de grafos en OCSR. Experimentos exhaustivos demuestran que GTR-Mol-VLM logra resultados superiores en comparación con modelos especializados, VLMs del dominio de la química y VLMs comerciales de propósito general. Notablemente, en escenarios que involucran imágenes moleculares con abreviaturas de grupos funcionales, GTR-Mol-VLM supera al segundo mejor modelo de referencia en aproximadamente 14 puntos porcentuales, tanto en métricas basadas en SMILES como en grafos. Esperamos que este trabajo impulse la tecnología OCSR para satisfacer de manera más efectiva las necesidades del mundo real, avanzando así en los campos de la quimioinformática y la IA para la Ciencia. Publicaremos GTR-CoT en https://github.com/opendatalab/GTR-CoT.
English
Optical Chemical Structure Recognition (OCSR) is crucial for digitizing
chemical knowledge by converting molecular images into machine-readable
formats. While recent vision-language models (VLMs) have shown potential in
this task, their image-captioning approach often struggles with complex
molecular structures and inconsistent annotations. To overcome these
challenges, we introduce GTR-Mol-VLM, a novel framework featuring two key
innovations: (1) the Graph Traversal as Visual Chain of Thought
mechanism that emulates human reasoning by incrementally parsing molecular
graphs through sequential atom-bond predictions, and (2) the data-centric
principle of Faithfully Recognize What You've Seen, which addresses
the mismatch between abbreviated structures in images and their expanded
annotations. To support model development, we constructed GTR-CoT-1.3M, a
large-scale instruction-tuning dataset with meticulously corrected annotations,
and introduced MolRec-Bench, the first benchmark designed for a fine-grained
evaluation of graph-parsing accuracy in OCSR. Comprehensive experiments
demonstrate that GTR-Mol-VLM achieves superior results compared to specialist
models, chemistry-domain VLMs, and commercial general-purpose VLMs. Notably, in
scenarios involving molecular images with functional group abbreviations,
GTR-Mol-VLM outperforms the second-best baseline by approximately 14 percentage
points, both in SMILES-based and graph-based metrics. We hope that this work
will drive OCSR technology to more effectively meet real-world needs, thereby
advancing the fields of cheminformatics and AI for Science. We will release
GTR-CoT at https://github.com/opendatalab/GTR-CoT.