GTR-CoT: Графовый обход как визуальная цепочка рассуждений для распознавания молекулярной структуры
GTR-CoT: Graph Traversal as Visual Chain of Thought for Molecular Structure Recognition
June 9, 2025
Авторы: Jingchao Wang, Haote Yang, Jiang Wu, Yifan He, Xingjian Wei, Yinfan Wang, Chengjin Liu, Lingli Ge, Lijun Wu, Bin Wang, Dahua Lin, Conghui He
cs.AI
Аннотация
Оптическое распознавание химических структур (OCSR) играет ключевую роль в оцифровке химических знаний путем преобразования изображений молекул в машиночитаемые форматы. Хотя современные модели, объединяющие зрение и язык (VLMs), продемонстрировали потенциал в этой задаче, их подход, основанный на генерации подписей к изображениям, часто сталкивается с трудностями при работе со сложными молекулярными структурами и несогласованными аннотациями. Для преодоления этих ограничений мы представляем GTR-Mol-VLM — новую структуру, включающую две ключевые инновации: (1) механизм Graph Traversal as Visual Chain of Thought, который имитирует человеческое рассуждение, постепенно анализируя молекулярные графы через последовательное предсказание атомов и связей, и (2) принцип, ориентированный на данные, Faithfully Recognize What You've Seen, который устраняет несоответствие между сокращенными структурами на изображениях и их расширенными аннотациями. Для поддержки разработки модели мы создали GTR-CoT-1.3M — крупномасштабный набор данных для настройки инструкций с тщательно исправленными аннотациями, а также представили MolRec-Bench — первый бенчмарк, предназначенный для детальной оценки точности анализа графов в OCSR. Комплексные эксперименты демонстрируют, что GTR-Mol-VLM достигает превосходных результатов по сравнению со специализированными моделями, VLMs в области химии и коммерческими универсальными VLMs. В частности, в сценариях с изображениями молекул, содержащими сокращенные обозначения функциональных групп, GTR-Mol-VLM превосходит второй лучший базовый подход примерно на 14 процентных пунктов как по метрикам, основанным на SMILES, так и на графах. Мы надеемся, что эта работа будет способствовать развитию технологии OCSR для более эффективного удовлетворения реальных потребностей, тем самым продвигая области хемоинформатики и искусственного интеллекта для науки. Мы опубликуем GTR-CoT по адресу https://github.com/opendatalab/GTR-CoT.
English
Optical Chemical Structure Recognition (OCSR) is crucial for digitizing
chemical knowledge by converting molecular images into machine-readable
formats. While recent vision-language models (VLMs) have shown potential in
this task, their image-captioning approach often struggles with complex
molecular structures and inconsistent annotations. To overcome these
challenges, we introduce GTR-Mol-VLM, a novel framework featuring two key
innovations: (1) the Graph Traversal as Visual Chain of Thought
mechanism that emulates human reasoning by incrementally parsing molecular
graphs through sequential atom-bond predictions, and (2) the data-centric
principle of Faithfully Recognize What You've Seen, which addresses
the mismatch between abbreviated structures in images and their expanded
annotations. To support model development, we constructed GTR-CoT-1.3M, a
large-scale instruction-tuning dataset with meticulously corrected annotations,
and introduced MolRec-Bench, the first benchmark designed for a fine-grained
evaluation of graph-parsing accuracy in OCSR. Comprehensive experiments
demonstrate that GTR-Mol-VLM achieves superior results compared to specialist
models, chemistry-domain VLMs, and commercial general-purpose VLMs. Notably, in
scenarios involving molecular images with functional group abbreviations,
GTR-Mol-VLM outperforms the second-best baseline by approximately 14 percentage
points, both in SMILES-based and graph-based metrics. We hope that this work
will drive OCSR technology to more effectively meet real-world needs, thereby
advancing the fields of cheminformatics and AI for Science. We will release
GTR-CoT at https://github.com/opendatalab/GTR-CoT.