GTR-CoT: Traversamento Grafico come Catena di Pensiero Visiva per il Riconoscimento della Struttura Molecolare

Abstract

Il riconoscimento ottico della struttura chimica (OCSR) è fondamentale per la digitalizzazione della conoscenza chimica, convertendo immagini molecolari in formati leggibili dalle macchine. Sebbene i recenti modelli visione-linguaggio (VLMs) abbiano mostrato potenziale in questo compito, il loro approccio di generazione di didascalie spesso incontra difficoltà con strutture molecolari complesse e annotazioni inconsistenti. Per superare queste sfide, introduciamo GTR-Mol-VLM, un nuovo framework che presenta due innovazioni chiave: (1) il meccanismo di Graph Traversal as Visual Chain of Thought, che emula il ragionamento umano analizzando gradualmente i grafi molecolari attraverso previsioni sequenziali di atomi e legami, e (2) il principio data-centric di Faithfully Recognize What You've Seen, che affronta la discrepanza tra strutture abbreviate nelle immagini e le loro annotazioni estese. Per supportare lo sviluppo del modello, abbiamo costruito GTR-CoT-1.3M, un ampio dataset di instruction-tuning con annotazioni accuratamente corrette, e introdotto MolRec-Bench, il primo benchmark progettato per una valutazione granulare dell'accuratezza del parsing di grafi in OCSR. Esperimenti completi dimostrano che GTR-Mol-VLM ottiene risultati superiori rispetto a modelli specializzati, VLMs nel dominio della chimica e VLMs generici commerciali. In particolare, in scenari che coinvolgono immagini molecolari con abbreviazioni di gruppi funzionali, GTR-Mol-VLM supera il secondo miglior baseline di circa 14 punti percentuali, sia in metriche basate su SMILES che su grafi. Speriamo che questo lavoro spinga la tecnologia OCSR a soddisfare più efficacemente le esigenze del mondo reale, contribuendo così ai progressi nei campi della chemioinformatica e dell'AI for Science. Rilasceremo GTR-CoT su https://github.com/opendatalab/GTR-CoT.

English

Optical Chemical Structure Recognition (OCSR) is crucial for digitizing chemical knowledge by converting molecular images into machine-readable formats. While recent vision-language models (VLMs) have shown potential in this task, their image-captioning approach often struggles with complex molecular structures and inconsistent annotations. To overcome these challenges, we introduce GTR-Mol-VLM, a novel framework featuring two key innovations: (1) the Graph Traversal as Visual Chain of Thought mechanism that emulates human reasoning by incrementally parsing molecular graphs through sequential atom-bond predictions, and (2) the data-centric principle of Faithfully Recognize What You've Seen, which addresses the mismatch between abbreviated structures in images and their expanded annotations. To support model development, we constructed GTR-CoT-1.3M, a large-scale instruction-tuning dataset with meticulously corrected annotations, and introduced MolRec-Bench, the first benchmark designed for a fine-grained evaluation of graph-parsing accuracy in OCSR. Comprehensive experiments demonstrate that GTR-Mol-VLM achieves superior results compared to specialist models, chemistry-domain VLMs, and commercial general-purpose VLMs. Notably, in scenarios involving molecular images with functional group abbreviations, GTR-Mol-VLM outperforms the second-best baseline by approximately 14 percentage points, both in SMILES-based and graph-based metrics. We hope that this work will drive OCSR technology to more effectively meet real-world needs, thereby advancing the fields of cheminformatics and AI for Science. We will release GTR-CoT at https://github.com/opendatalab/GTR-CoT.

GTR-CoT: Traversamento Grafico come Catena di Pensiero Visiva per il Riconoscimento della Struttura Molecolare

GTR-CoT: Graph Traversal as Visual Chain of Thought for Molecular Structure Recognition

Abstract

Support