ChatPaper.aiChatPaper

GTR-CoT : Parcours de graphe comme chaîne de raisonnement visuel pour la reconnaissance de structures moléculaires

GTR-CoT: Graph Traversal as Visual Chain of Thought for Molecular Structure Recognition

June 9, 2025
Auteurs: Jingchao Wang, Haote Yang, Jiang Wu, Yifan He, Xingjian Wei, Yinfan Wang, Chengjin Liu, Lingli Ge, Lijun Wu, Bin Wang, Dahua Lin, Conghui He
cs.AI

Résumé

La reconnaissance optique de structures chimiques (OCSR) est cruciale pour la numérisation des connaissances chimiques en convertissant des images moléculaires en formats lisibles par machine. Bien que les modèles vision-langage (VLMs) récents aient montré un potentiel dans cette tâche, leur approche de génération de légendes d'images rencontre souvent des difficultés avec les structures moléculaires complexes et les annotations incohérentes. Pour surmonter ces défis, nous introduisons GTR-Mol-VLM, un nouveau cadre présentant deux innovations clés : (1) le mécanisme de parcours de graphe comme chaîne de pensée visuelle, qui imite le raisonnement humain en analysant progressivement les graphes moléculaires à travers des prédictions séquentielles d'atomes et de liaisons, et (2) le principe centré sur les données de "Reconnaître fidèlement ce que vous avez vu", qui traite l'inadéquation entre les structures abrégées dans les images et leurs annotations développées. Pour soutenir le développement du modèle, nous avons construit GTR-CoT-1.3M, un ensemble de données d'ajustement d'instructions à grande échelle avec des annotations soigneusement corrigées, et introduit MolRec-Bench, le premier benchmark conçu pour une évaluation fine de la précision de l'analyse de graphes en OCSR. Des expériences approfondies démontrent que GTR-Mol-VLM obtient des résultats supérieurs par rapport aux modèles spécialisés, aux VLMs du domaine de la chimie et aux VLMs commerciaux à usage général. Notamment, dans les scénarios impliquant des images moléculaires avec des abréviations de groupes fonctionnels, GTR-Mol-VLM surpasse le deuxième meilleur modèle de référence d'environ 14 points de pourcentage, à la fois en termes de métriques basées sur SMILES et sur les graphes. Nous espérons que ce travail permettra à la technologie OCSR de répondre plus efficacement aux besoins du monde réel, faisant ainsi progresser les domaines de la chémoinformatique et de l'IA pour la science. Nous publierons GTR-CoT sur https://github.com/opendatalab/GTR-CoT.
English
Optical Chemical Structure Recognition (OCSR) is crucial for digitizing chemical knowledge by converting molecular images into machine-readable formats. While recent vision-language models (VLMs) have shown potential in this task, their image-captioning approach often struggles with complex molecular structures and inconsistent annotations. To overcome these challenges, we introduce GTR-Mol-VLM, a novel framework featuring two key innovations: (1) the Graph Traversal as Visual Chain of Thought mechanism that emulates human reasoning by incrementally parsing molecular graphs through sequential atom-bond predictions, and (2) the data-centric principle of Faithfully Recognize What You've Seen, which addresses the mismatch between abbreviated structures in images and their expanded annotations. To support model development, we constructed GTR-CoT-1.3M, a large-scale instruction-tuning dataset with meticulously corrected annotations, and introduced MolRec-Bench, the first benchmark designed for a fine-grained evaluation of graph-parsing accuracy in OCSR. Comprehensive experiments demonstrate that GTR-Mol-VLM achieves superior results compared to specialist models, chemistry-domain VLMs, and commercial general-purpose VLMs. Notably, in scenarios involving molecular images with functional group abbreviations, GTR-Mol-VLM outperforms the second-best baseline by approximately 14 percentage points, both in SMILES-based and graph-based metrics. We hope that this work will drive OCSR technology to more effectively meet real-world needs, thereby advancing the fields of cheminformatics and AI for Science. We will release GTR-CoT at https://github.com/opendatalab/GTR-CoT.
PDF122June 10, 2025