GTR-CoT: Travessia de Grafos como Cadeia de Pensamento Visual para Reconhecimento de Estruturas Moleculares

Resumo

O Reconhecimento Óptico de Estruturas Químicas (OCSR) é crucial para a digitalização do conhecimento químico, convertendo imagens moleculares em formatos legíveis por máquinas. Embora modelos visão-linguagem (VLMs) recentes tenham mostrado potencial nessa tarefa, sua abordagem de geração de legendas para imagens frequentemente enfrenta dificuldades com estruturas moleculares complexas e anotações inconsistentes. Para superar esses desafios, introduzimos o GTR-Mol-VLM, uma nova estrutura que apresenta duas inovações principais: (1) o mecanismo de Traversal de Grafos como Cadeia de Pensamento Visual, que emula o raciocínio humano ao analisar incrementalmente grafos moleculares por meio de previsões sequenciais de átomos e ligações, e (2) o princípio centrado em dados de "Reconhecer Fielmente o que Você Viu", que aborda a discrepância entre estruturas abreviadas nas imagens e suas anotações expandidas. Para apoiar o desenvolvimento do modelo, construímos o GTR-CoT-1.3M, um grande conjunto de dados de ajuste de instruções com anotações meticulosamente corrigidas, e introduzimos o MolRec-Bench, o primeiro benchmark projetado para uma avaliação detalhada da precisão na análise de grafos em OCSR. Experimentos abrangentes demonstram que o GTR-Mol-VLM alcança resultados superiores em comparação com modelos especializados, VLMs de domínio químico e VLMs comerciais de propósito geral. Notavelmente, em cenários envolvendo imagens moleculares com abreviações de grupos funcionais, o GTR-Mol-VLM supera o segundo melhor modelo de referência em aproximadamente 14 pontos percentuais, tanto em métricas baseadas em SMILES quanto em grafos. Esperamos que este trabalho impulsione a tecnologia OCSR para atender de forma mais eficaz às necessidades do mundo real, avançando assim os campos da quimioinformática e da IA para Ciência. Disponibilizaremos o GTR-CoT em https://github.com/opendatalab/GTR-CoT.

English

Optical Chemical Structure Recognition (OCSR) is crucial for digitizing chemical knowledge by converting molecular images into machine-readable formats. While recent vision-language models (VLMs) have shown potential in this task, their image-captioning approach often struggles with complex molecular structures and inconsistent annotations. To overcome these challenges, we introduce GTR-Mol-VLM, a novel framework featuring two key innovations: (1) the Graph Traversal as Visual Chain of Thought mechanism that emulates human reasoning by incrementally parsing molecular graphs through sequential atom-bond predictions, and (2) the data-centric principle of Faithfully Recognize What You've Seen, which addresses the mismatch between abbreviated structures in images and their expanded annotations. To support model development, we constructed GTR-CoT-1.3M, a large-scale instruction-tuning dataset with meticulously corrected annotations, and introduced MolRec-Bench, the first benchmark designed for a fine-grained evaluation of graph-parsing accuracy in OCSR. Comprehensive experiments demonstrate that GTR-Mol-VLM achieves superior results compared to specialist models, chemistry-domain VLMs, and commercial general-purpose VLMs. Notably, in scenarios involving molecular images with functional group abbreviations, GTR-Mol-VLM outperforms the second-best baseline by approximately 14 percentage points, both in SMILES-based and graph-based metrics. We hope that this work will drive OCSR technology to more effectively meet real-world needs, thereby advancing the fields of cheminformatics and AI for Science. We will release GTR-CoT at https://github.com/opendatalab/GTR-CoT.

GTR-CoT: Travessia de Grafos como Cadeia de Pensamento Visual para Reconhecimento de Estruturas Moleculares

GTR-CoT: Graph Traversal as Visual Chain of Thought for Molecular Structure Recognition

Resumo

Support