GTR-CoT: 分子構造認識のための視覚的連鎖思考としてのグラフトラバーサル
GTR-CoT: Graph Traversal as Visual Chain of Thought for Molecular Structure Recognition
June 9, 2025
著者: Jingchao Wang, Haote Yang, Jiang Wu, Yifan He, Xingjian Wei, Yinfan Wang, Chengjin Liu, Lingli Ge, Lijun Wu, Bin Wang, Dahua Lin, Conghui He
cs.AI
要旨
光学化学構造認識(OCSR)は、分子画像を機械可読形式に変換することで化学知識のデジタル化において重要な役割を果たします。最近の視覚言語モデル(VLM)はこのタスクにおいて潜在能力を示していますが、その画像キャプショニングアプローチは複雑な分子構造や一貫性のないアノテーションに苦戦することがあります。これらの課題を克服するため、我々はGTR-Mol-VLMという新しいフレームワークを提案します。このフレームワークには2つの主要な革新が含まれています:(1) グラフトラバーサルを視覚的思考連鎖として模倣し、逐次的な原子-結合予測を通じて分子グラフを解析するメカニズム、(2) 画像中の省略構造とその拡張アノテーションの不整合に対処する「見たものを忠実に認識する」というデータ中心の原則です。モデル開発を支援するため、我々はGTR-CoT-1.3Mという大規模な指示チューニングデータセットを構築し、注意深く修正されたアノテーションを提供しました。また、OCSRにおけるグラフ解析精度の詳細な評価を目的とした最初のベンチマークであるMolRec-Benchを導入しました。包括的な実験により、GTR-Mol-VLMは専門家モデル、化学領域のVLM、商用の汎用VLMと比較して優れた結果を達成することが示されました。特に、官能基の省略を含む分子画像のシナリオにおいて、GTR-Mol-VLMは2番目に優れたベースラインをSMILESベースおよびグラフベースのメトリクスで約14パーセンテージポイント上回りました。本研究がOCSR技術を現実世界のニーズにより効果的に満たすことを推進し、ケモインフォマティクスやAI for Scienceの分野を前進させることを期待しています。GTR-CoTはhttps://github.com/opendatalab/GTR-CoTで公開予定です。
English
Optical Chemical Structure Recognition (OCSR) is crucial for digitizing
chemical knowledge by converting molecular images into machine-readable
formats. While recent vision-language models (VLMs) have shown potential in
this task, their image-captioning approach often struggles with complex
molecular structures and inconsistent annotations. To overcome these
challenges, we introduce GTR-Mol-VLM, a novel framework featuring two key
innovations: (1) the Graph Traversal as Visual Chain of Thought
mechanism that emulates human reasoning by incrementally parsing molecular
graphs through sequential atom-bond predictions, and (2) the data-centric
principle of Faithfully Recognize What You've Seen, which addresses
the mismatch between abbreviated structures in images and their expanded
annotations. To support model development, we constructed GTR-CoT-1.3M, a
large-scale instruction-tuning dataset with meticulously corrected annotations,
and introduced MolRec-Bench, the first benchmark designed for a fine-grained
evaluation of graph-parsing accuracy in OCSR. Comprehensive experiments
demonstrate that GTR-Mol-VLM achieves superior results compared to specialist
models, chemistry-domain VLMs, and commercial general-purpose VLMs. Notably, in
scenarios involving molecular images with functional group abbreviations,
GTR-Mol-VLM outperforms the second-best baseline by approximately 14 percentage
points, both in SMILES-based and graph-based metrics. We hope that this work
will drive OCSR technology to more effectively meet real-world needs, thereby
advancing the fields of cheminformatics and AI for Science. We will release
GTR-CoT at https://github.com/opendatalab/GTR-CoT.