ChatPaper.aiChatPaper

oMeBench: К созданию надежного бенчмаркинга языковых моделей в области установления органических механизмов и рассуждений

oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning

October 9, 2025
Авторы: Ruiling Xu, Yifan Zhang, Qingyun Wang, Carl Edwards, Heng Ji
cs.AI

Аннотация

Органические механизмы реакций представляют собой последовательные элементарные реакции, в ходе которых реагенты образуют промежуточные соединения и продукты, и они являются основополагающими для понимания химической реакционной способности и проектирования новых молекул и реакций. Хотя крупные языковые модели (LLM) продемонстрировали потенциал в решении химических задач, таких как проектирование синтеза, остается неясным, в какой степени это отражает подлинные способности к химическому рассуждению, то есть умение генерировать корректные промежуточные соединения, поддерживать химическую согласованность и следовать логически последовательным многоступенчатым путям. Мы решаем эту проблему, представляя oMeBench — первый крупномасштабный, экспертно проверенный эталонный тест для рассуждений о механизмах органических реакций в органической химии. Он включает более 10 000 аннотированных механистических шагов с промежуточными соединениями, метками типов и оценками сложности. Кроме того, для более точной оценки возможностей LLM и обеспечения детализированной оценки мы предлагаем oMeS — динамическую систему оценки, которая сочетает логику на уровне шагов и химическое сходство. Мы анализируем производительность современных LLM, и наши результаты показывают, что, хотя текущие модели демонстрируют перспективную химическую интуицию, они испытывают трудности с корректным и последовательным многоступенчатым рассуждением. Примечательно, что использование стратегии промптинга и дообучения специализированной модели на нашем предложенном наборе данных повышает производительность на 50% по сравнению с ведущей закрытой моделью. Мы надеемся, что oMeBench послужит строгой основой для продвижения систем ИИ к подлинному химическому рассуждению.
English
Organic reaction mechanisms are the stepwise elementary reactions by which reactants form intermediates and products, and are fundamental to understanding chemical reactivity and designing new molecules and reactions. Although large language models (LLMs) have shown promise in understanding chemical tasks such as synthesis design, it is unclear to what extent this reflects genuine chemical reasoning capabilities, i.e., the ability to generate valid intermediates, maintain chemical consistency, and follow logically coherent multi-step pathways. We address this by introducing oMeBench, the first large-scale, expert-curated benchmark for organic mechanism reasoning in organic chemistry. It comprises over 10,000 annotated mechanistic steps with intermediates, type labels, and difficulty ratings. Furthermore, to evaluate LLM capability more precisely and enable fine-grained scoring, we propose oMeS, a dynamic evaluation framework that combines step-level logic and chemical similarity. We analyze the performance of state-of-the-art LLMs, and our results show that although current models display promising chemical intuition, they struggle with correct and consistent multi-step reasoning. Notably, we find that using prompting strategy and fine-tuning a specialist model on our proposed dataset increases performance by 50% over the leading closed-source model. We hope that oMeBench will serve as a rigorous foundation for advancing AI systems toward genuine chemical reasoning.
PDF44October 14, 2025