GTR-CoT: Graph-Traversal als visuelle Gedankenkette zur Erkennung molekularer Strukturen
GTR-CoT: Graph Traversal as Visual Chain of Thought for Molecular Structure Recognition
June 9, 2025
Autoren: Jingchao Wang, Haote Yang, Jiang Wu, Yifan He, Xingjian Wei, Yinfan Wang, Chengjin Liu, Lingli Ge, Lijun Wu, Bin Wang, Dahua Lin, Conghui He
cs.AI
Zusammenfassung
Optical Chemical Structure Recognition (OCSR) ist entscheidend für die Digitalisierung chemischen Wissens, indem molekulare Bilder in maschinenlesbare Formate umgewandelt werden. Obwohl neuere Vision-Language-Modelle (VLMs) Potenzial in dieser Aufgabe gezeigt haben, kämpft ihr Bildbeschreibungsansatz oft mit komplexen molekularen Strukturen und inkonsistenten Annotationen. Um diese Herausforderungen zu bewältigen, stellen wir GTR-Mol-VLM vor, ein neuartiges Framework mit zwei Schlüsselinnovationen: (1) den Graph Traversal as Visual Chain of Thought-Mechanismus, der menschliches Denken nachahmt, indem er molekulare Graphen durch sequenzielle Atom-Bindungs-Vorhersagen schrittweise analysiert, und (2) das datenzentrierte Prinzip „Faithfully Recognize What You've Seen“, das die Diskrepanz zwischen abgekürzten Strukturen in Bildern und ihren erweiterten Annotationen adressiert. Zur Unterstützung der Modellentwicklung haben wir GTR-CoT-1.3M erstellt, einen groß angelegten Instruction-Tuning-Datensatz mit sorgfältig korrigierten Annotationen, und MolRec-Bench eingeführt, den ersten Benchmark, der für eine detaillierte Bewertung der Graphenparsungsgenauigkeit in OCSR entwickelt wurde. Umfassende Experimente zeigen, dass GTR-Mol-VLM im Vergleich zu spezialisierten Modellen, chemiebezogenen VLMs und kommerziellen allgemeinen VLMs überlegene Ergebnisse erzielt. Insbesondere in Szenarien mit molekularen Bildern, die Funktionsgruppenabkürzungen enthalten, übertrifft GTR-Mol-VLM die zweitbeste Baseline um etwa 14 Prozentpunkte, sowohl in SMILES-basierten als auch in graphenbasierten Metriken. Wir hoffen, dass diese Arbeit die OCSR-Technologie dazu anregt, die Anforderungen der realen Welt effektiver zu erfüllen und damit die Bereiche der Chemoinformatik und KI für die Wissenschaft voranzubringen. Wir werden GTR-CoT unter https://github.com/opendatalab/GTR-CoT veröffentlichen.
English
Optical Chemical Structure Recognition (OCSR) is crucial for digitizing
chemical knowledge by converting molecular images into machine-readable
formats. While recent vision-language models (VLMs) have shown potential in
this task, their image-captioning approach often struggles with complex
molecular structures and inconsistent annotations. To overcome these
challenges, we introduce GTR-Mol-VLM, a novel framework featuring two key
innovations: (1) the Graph Traversal as Visual Chain of Thought
mechanism that emulates human reasoning by incrementally parsing molecular
graphs through sequential atom-bond predictions, and (2) the data-centric
principle of Faithfully Recognize What You've Seen, which addresses
the mismatch between abbreviated structures in images and their expanded
annotations. To support model development, we constructed GTR-CoT-1.3M, a
large-scale instruction-tuning dataset with meticulously corrected annotations,
and introduced MolRec-Bench, the first benchmark designed for a fine-grained
evaluation of graph-parsing accuracy in OCSR. Comprehensive experiments
demonstrate that GTR-Mol-VLM achieves superior results compared to specialist
models, chemistry-domain VLMs, and commercial general-purpose VLMs. Notably, in
scenarios involving molecular images with functional group abbreviations,
GTR-Mol-VLM outperforms the second-best baseline by approximately 14 percentage
points, both in SMILES-based and graph-based metrics. We hope that this work
will drive OCSR technology to more effectively meet real-world needs, thereby
advancing the fields of cheminformatics and AI for Science. We will release
GTR-CoT at https://github.com/opendatalab/GTR-CoT.