GTR-CoT: Traversamento Grafico come Catena di Pensiero Visiva per il Riconoscimento della Struttura Molecolare
GTR-CoT: Graph Traversal as Visual Chain of Thought for Molecular Structure Recognition
June 9, 2025
Autori: Jingchao Wang, Haote Yang, Jiang Wu, Yifan He, Xingjian Wei, Yinfan Wang, Chengjin Liu, Lingli Ge, Lijun Wu, Bin Wang, Dahua Lin, Conghui He
cs.AI
Abstract
Il riconoscimento ottico della struttura chimica (OCSR) è fondamentale per la digitalizzazione della conoscenza chimica, convertendo immagini molecolari in formati leggibili dalle macchine. Sebbene i recenti modelli visione-linguaggio (VLMs) abbiano mostrato potenziale in questo compito, il loro approccio di generazione di didascalie spesso incontra difficoltà con strutture molecolari complesse e annotazioni inconsistenti. Per superare queste sfide, introduciamo GTR-Mol-VLM, un nuovo framework che presenta due innovazioni chiave: (1) il meccanismo di Graph Traversal as Visual Chain of Thought, che emula il ragionamento umano analizzando gradualmente i grafi molecolari attraverso previsioni sequenziali di atomi e legami, e (2) il principio data-centric di Faithfully Recognize What You've Seen, che affronta la discrepanza tra strutture abbreviate nelle immagini e le loro annotazioni estese. Per supportare lo sviluppo del modello, abbiamo costruito GTR-CoT-1.3M, un ampio dataset di instruction-tuning con annotazioni accuratamente corrette, e introdotto MolRec-Bench, il primo benchmark progettato per una valutazione granulare dell'accuratezza del parsing di grafi in OCSR. Esperimenti completi dimostrano che GTR-Mol-VLM ottiene risultati superiori rispetto a modelli specializzati, VLMs nel dominio della chimica e VLMs generici commerciali. In particolare, in scenari che coinvolgono immagini molecolari con abbreviazioni di gruppi funzionali, GTR-Mol-VLM supera il secondo miglior baseline di circa 14 punti percentuali, sia in metriche basate su SMILES che su grafi. Speriamo che questo lavoro spinga la tecnologia OCSR a soddisfare più efficacemente le esigenze del mondo reale, contribuendo così ai progressi nei campi della chemioinformatica e dell'AI for Science. Rilasceremo GTR-CoT su https://github.com/opendatalab/GTR-CoT.
English
Optical Chemical Structure Recognition (OCSR) is crucial for digitizing
chemical knowledge by converting molecular images into machine-readable
formats. While recent vision-language models (VLMs) have shown potential in
this task, their image-captioning approach often struggles with complex
molecular structures and inconsistent annotations. To overcome these
challenges, we introduce GTR-Mol-VLM, a novel framework featuring two key
innovations: (1) the Graph Traversal as Visual Chain of Thought
mechanism that emulates human reasoning by incrementally parsing molecular
graphs through sequential atom-bond predictions, and (2) the data-centric
principle of Faithfully Recognize What You've Seen, which addresses
the mismatch between abbreviated structures in images and their expanded
annotations. To support model development, we constructed GTR-CoT-1.3M, a
large-scale instruction-tuning dataset with meticulously corrected annotations,
and introduced MolRec-Bench, the first benchmark designed for a fine-grained
evaluation of graph-parsing accuracy in OCSR. Comprehensive experiments
demonstrate that GTR-Mol-VLM achieves superior results compared to specialist
models, chemistry-domain VLMs, and commercial general-purpose VLMs. Notably, in
scenarios involving molecular images with functional group abbreviations,
GTR-Mol-VLM outperforms the second-best baseline by approximately 14 percentage
points, both in SMILES-based and graph-based metrics. We hope that this work
will drive OCSR technology to more effectively meet real-world needs, thereby
advancing the fields of cheminformatics and AI for Science. We will release
GTR-CoT at https://github.com/opendatalab/GTR-CoT.