oMeBench: Naar Robuust Benchmarken van LLM's in Organische Mechanisme Opheldering en Redenering
oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning
October 9, 2025
Auteurs: Ruiling Xu, Yifan Zhang, Qingyun Wang, Carl Edwards, Heng Ji
cs.AI
Samenvatting
Organische reactiemechanismen zijn de stapsgewijze elementaire reacties waarmee
reactanten intermediairen en producten vormen, en zijn fundamenteel voor het
begrijpen van chemische reactiviteit en het ontwerpen van nieuwe moleculen en
reacties. Hoewel grote taalmodellen (LLM's) veelbelovend zijn gebleken in het
begrijpen van chemische taken zoals synthesedesign, is het onduidelijk in hoeverre
dit echte chemische redeneervaardigheden weerspiegelt, zoals het vermogen om
geldige intermediairen te genereren, chemische consistentie te behouden en
logisch samenhangende meerstapsroutes te volgen. Wij pakken dit aan door
oMeBench te introduceren, de eerste grootschalige, door experts samengestelde
benchmark voor organisch mechanismeredeneren in de organische chemie. Het omvat
meer dan 10.000 geannoteerde mechanismestappen met intermediairen, typelabels en
moeilijkheidsgradaties. Bovendien stellen we, om de LLM-capaciteit nauwkeuriger
te evalueren en fijnmazige scoring mogelijk te maken, oMeS voor, een dynamisch
evaluatiekader dat stapniveau-logica en chemische gelijkenis combineert. Wij
analyseren de prestaties van state-of-the-art LLM's, en onze resultaten tonen aan
dat hoewel huidige modellen veelbelovende chemische intuïtie vertonen, ze
moeite hebben met correct en consistent meerstapsredeneren. Opmerkelijk is dat
we vaststellen dat het gebruik van een promptingstrategie en het finetunen van
een specialistisch model op onze voorgestelde dataset de prestaties met 50%
verhoogt ten opzichte van het toonaangevende closed-source model. Wij hopen dat
oMeBench zal dienen als een rigoureuze basis voor het bevorderen van AI-systemen
naar echt chemisch redeneren.
English
Organic reaction mechanisms are the stepwise elementary reactions by which
reactants form intermediates and products, and are fundamental to understanding
chemical reactivity and designing new molecules and reactions. Although large
language models (LLMs) have shown promise in understanding chemical tasks such
as synthesis design, it is unclear to what extent this reflects genuine
chemical reasoning capabilities, i.e., the ability to generate valid
intermediates, maintain chemical consistency, and follow logically coherent
multi-step pathways. We address this by introducing oMeBench, the first
large-scale, expert-curated benchmark for organic mechanism reasoning in
organic chemistry. It comprises over 10,000 annotated mechanistic steps with
intermediates, type labels, and difficulty ratings. Furthermore, to evaluate
LLM capability more precisely and enable fine-grained scoring, we propose oMeS,
a dynamic evaluation framework that combines step-level logic and chemical
similarity. We analyze the performance of state-of-the-art LLMs, and our
results show that although current models display promising chemical intuition,
they struggle with correct and consistent multi-step reasoning. Notably, we
find that using prompting strategy and fine-tuning a specialist model on our
proposed dataset increases performance by 50% over the leading closed-source
model. We hope that oMeBench will serve as a rigorous foundation for advancing
AI systems toward genuine chemical reasoning.