GTR-CoT: Travessia de Grafos como Cadeia de Pensamento Visual para Reconhecimento de Estruturas Moleculares
GTR-CoT: Graph Traversal as Visual Chain of Thought for Molecular Structure Recognition
June 9, 2025
Autores: Jingchao Wang, Haote Yang, Jiang Wu, Yifan He, Xingjian Wei, Yinfan Wang, Chengjin Liu, Lingli Ge, Lijun Wu, Bin Wang, Dahua Lin, Conghui He
cs.AI
Resumo
O Reconhecimento Óptico de Estruturas Químicas (OCSR) é crucial para a digitalização do conhecimento químico, convertendo imagens moleculares em formatos legíveis por máquinas. Embora modelos visão-linguagem (VLMs) recentes tenham mostrado potencial nessa tarefa, sua abordagem de geração de legendas para imagens frequentemente enfrenta dificuldades com estruturas moleculares complexas e anotações inconsistentes. Para superar esses desafios, introduzimos o GTR-Mol-VLM, uma nova estrutura que apresenta duas inovações principais: (1) o mecanismo de Traversal de Grafos como Cadeia de Pensamento Visual, que emula o raciocínio humano ao analisar incrementalmente grafos moleculares por meio de previsões sequenciais de átomos e ligações, e (2) o princípio centrado em dados de "Reconhecer Fielmente o que Você Viu", que aborda a discrepância entre estruturas abreviadas nas imagens e suas anotações expandidas. Para apoiar o desenvolvimento do modelo, construímos o GTR-CoT-1.3M, um grande conjunto de dados de ajuste de instruções com anotações meticulosamente corrigidas, e introduzimos o MolRec-Bench, o primeiro benchmark projetado para uma avaliação detalhada da precisão na análise de grafos em OCSR. Experimentos abrangentes demonstram que o GTR-Mol-VLM alcança resultados superiores em comparação com modelos especializados, VLMs de domínio químico e VLMs comerciais de propósito geral. Notavelmente, em cenários envolvendo imagens moleculares com abreviações de grupos funcionais, o GTR-Mol-VLM supera o segundo melhor modelo de referência em aproximadamente 14 pontos percentuais, tanto em métricas baseadas em SMILES quanto em grafos. Esperamos que este trabalho impulsione a tecnologia OCSR para atender de forma mais eficaz às necessidades do mundo real, avançando assim os campos da quimioinformática e da IA para Ciência. Disponibilizaremos o GTR-CoT em https://github.com/opendatalab/GTR-CoT.
English
Optical Chemical Structure Recognition (OCSR) is crucial for digitizing
chemical knowledge by converting molecular images into machine-readable
formats. While recent vision-language models (VLMs) have shown potential in
this task, their image-captioning approach often struggles with complex
molecular structures and inconsistent annotations. To overcome these
challenges, we introduce GTR-Mol-VLM, a novel framework featuring two key
innovations: (1) the Graph Traversal as Visual Chain of Thought
mechanism that emulates human reasoning by incrementally parsing molecular
graphs through sequential atom-bond predictions, and (2) the data-centric
principle of Faithfully Recognize What You've Seen, which addresses
the mismatch between abbreviated structures in images and their expanded
annotations. To support model development, we constructed GTR-CoT-1.3M, a
large-scale instruction-tuning dataset with meticulously corrected annotations,
and introduced MolRec-Bench, the first benchmark designed for a fine-grained
evaluation of graph-parsing accuracy in OCSR. Comprehensive experiments
demonstrate that GTR-Mol-VLM achieves superior results compared to specialist
models, chemistry-domain VLMs, and commercial general-purpose VLMs. Notably, in
scenarios involving molecular images with functional group abbreviations,
GTR-Mol-VLM outperforms the second-best baseline by approximately 14 percentage
points, both in SMILES-based and graph-based metrics. We hope that this work
will drive OCSR technology to more effectively meet real-world needs, thereby
advancing the fields of cheminformatics and AI for Science. We will release
GTR-CoT at https://github.com/opendatalab/GTR-CoT.