GTR-CoT: Графовый обход как визуальная цепочка рассуждений для распознавания молекулярной структуры

Аннотация

Оптическое распознавание химических структур (OCSR) играет ключевую роль в оцифровке химических знаний путем преобразования изображений молекул в машиночитаемые форматы. Хотя современные модели, объединяющие зрение и язык (VLMs), продемонстрировали потенциал в этой задаче, их подход, основанный на генерации подписей к изображениям, часто сталкивается с трудностями при работе со сложными молекулярными структурами и несогласованными аннотациями. Для преодоления этих ограничений мы представляем GTR-Mol-VLM — новую структуру, включающую две ключевые инновации: (1) механизм Graph Traversal as Visual Chain of Thought, который имитирует человеческое рассуждение, постепенно анализируя молекулярные графы через последовательное предсказание атомов и связей, и (2) принцип, ориентированный на данные, Faithfully Recognize What You've Seen, который устраняет несоответствие между сокращенными структурами на изображениях и их расширенными аннотациями. Для поддержки разработки модели мы создали GTR-CoT-1.3M — крупномасштабный набор данных для настройки инструкций с тщательно исправленными аннотациями, а также представили MolRec-Bench — первый бенчмарк, предназначенный для детальной оценки точности анализа графов в OCSR. Комплексные эксперименты демонстрируют, что GTR-Mol-VLM достигает превосходных результатов по сравнению со специализированными моделями, VLMs в области химии и коммерческими универсальными VLMs. В частности, в сценариях с изображениями молекул, содержащими сокращенные обозначения функциональных групп, GTR-Mol-VLM превосходит второй лучший базовый подход примерно на 14 процентных пунктов как по метрикам, основанным на SMILES, так и на графах. Мы надеемся, что эта работа будет способствовать развитию технологии OCSR для более эффективного удовлетворения реальных потребностей, тем самым продвигая области хемоинформатики и искусственного интеллекта для науки. Мы опубликуем GTR-CoT по адресу https://github.com/opendatalab/GTR-CoT.

English

Optical Chemical Structure Recognition (OCSR) is crucial for digitizing chemical knowledge by converting molecular images into machine-readable formats. While recent vision-language models (VLMs) have shown potential in this task, their image-captioning approach often struggles with complex molecular structures and inconsistent annotations. To overcome these challenges, we introduce GTR-Mol-VLM, a novel framework featuring two key innovations: (1) the Graph Traversal as Visual Chain of Thought mechanism that emulates human reasoning by incrementally parsing molecular graphs through sequential atom-bond predictions, and (2) the data-centric principle of Faithfully Recognize What You've Seen, which addresses the mismatch between abbreviated structures in images and their expanded annotations. To support model development, we constructed GTR-CoT-1.3M, a large-scale instruction-tuning dataset with meticulously corrected annotations, and introduced MolRec-Bench, the first benchmark designed for a fine-grained evaluation of graph-parsing accuracy in OCSR. Comprehensive experiments demonstrate that GTR-Mol-VLM achieves superior results compared to specialist models, chemistry-domain VLMs, and commercial general-purpose VLMs. Notably, in scenarios involving molecular images with functional group abbreviations, GTR-Mol-VLM outperforms the second-best baseline by approximately 14 percentage points, both in SMILES-based and graph-based metrics. We hope that this work will drive OCSR technology to more effectively meet real-world needs, thereby advancing the fields of cheminformatics and AI for Science. We will release GTR-CoT at https://github.com/opendatalab/GTR-CoT.

GTR-CoT: Графовый обход как визуальная цепочка рассуждений для распознавания молекулярной структуры

GTR-CoT: Graph Traversal as Visual Chain of Thought for Molecular Structure Recognition

Аннотация

Support