oMeBench: К созданию надежного бенчмаркинга языковых моделей в области установления органических механизмов и рассуждений
oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning
October 9, 2025
Авторы: Ruiling Xu, Yifan Zhang, Qingyun Wang, Carl Edwards, Heng Ji
cs.AI
Аннотация
Органические механизмы реакций представляют собой последовательные элементарные реакции, в ходе которых реагенты образуют промежуточные соединения и продукты, и они являются основополагающими для понимания химической реакционной способности и проектирования новых молекул и реакций. Хотя крупные языковые модели (LLM) продемонстрировали потенциал в решении химических задач, таких как проектирование синтеза, остается неясным, в какой степени это отражает подлинные способности к химическому рассуждению, то есть умение генерировать корректные промежуточные соединения, поддерживать химическую согласованность и следовать логически последовательным многоступенчатым путям. Мы решаем эту проблему, представляя oMeBench — первый крупномасштабный, экспертно проверенный эталонный тест для рассуждений о механизмах органических реакций в органической химии. Он включает более 10 000 аннотированных механистических шагов с промежуточными соединениями, метками типов и оценками сложности. Кроме того, для более точной оценки возможностей LLM и обеспечения детализированной оценки мы предлагаем oMeS — динамическую систему оценки, которая сочетает логику на уровне шагов и химическое сходство. Мы анализируем производительность современных LLM, и наши результаты показывают, что, хотя текущие модели демонстрируют перспективную химическую интуицию, они испытывают трудности с корректным и последовательным многоступенчатым рассуждением. Примечательно, что использование стратегии промптинга и дообучения специализированной модели на нашем предложенном наборе данных повышает производительность на 50% по сравнению с ведущей закрытой моделью. Мы надеемся, что oMeBench послужит строгой основой для продвижения систем ИИ к подлинному химическому рассуждению.
English
Organic reaction mechanisms are the stepwise elementary reactions by which
reactants form intermediates and products, and are fundamental to understanding
chemical reactivity and designing new molecules and reactions. Although large
language models (LLMs) have shown promise in understanding chemical tasks such
as synthesis design, it is unclear to what extent this reflects genuine
chemical reasoning capabilities, i.e., the ability to generate valid
intermediates, maintain chemical consistency, and follow logically coherent
multi-step pathways. We address this by introducing oMeBench, the first
large-scale, expert-curated benchmark for organic mechanism reasoning in
organic chemistry. It comprises over 10,000 annotated mechanistic steps with
intermediates, type labels, and difficulty ratings. Furthermore, to evaluate
LLM capability more precisely and enable fine-grained scoring, we propose oMeS,
a dynamic evaluation framework that combines step-level logic and chemical
similarity. We analyze the performance of state-of-the-art LLMs, and our
results show that although current models display promising chemical intuition,
they struggle with correct and consistent multi-step reasoning. Notably, we
find that using prompting strategy and fine-tuning a specialist model on our
proposed dataset increases performance by 50% over the leading closed-source
model. We hope that oMeBench will serve as a rigorous foundation for advancing
AI systems toward genuine chemical reasoning.