ChatPaper.aiChatPaper

oMeBench: Naar Robuust Benchmarken van LLM's in Organische Mechanisme Opheldering en Redenering

oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning

October 9, 2025
Auteurs: Ruiling Xu, Yifan Zhang, Qingyun Wang, Carl Edwards, Heng Ji
cs.AI

Samenvatting

Organische reactiemechanismen zijn de stapsgewijze elementaire reacties waarmee reactanten intermediairen en producten vormen, en zijn fundamenteel voor het begrijpen van chemische reactiviteit en het ontwerpen van nieuwe moleculen en reacties. Hoewel grote taalmodellen (LLM's) veelbelovend zijn gebleken in het begrijpen van chemische taken zoals synthesedesign, is het onduidelijk in hoeverre dit echte chemische redeneervaardigheden weerspiegelt, zoals het vermogen om geldige intermediairen te genereren, chemische consistentie te behouden en logisch samenhangende meerstapsroutes te volgen. Wij pakken dit aan door oMeBench te introduceren, de eerste grootschalige, door experts samengestelde benchmark voor organisch mechanismeredeneren in de organische chemie. Het omvat meer dan 10.000 geannoteerde mechanismestappen met intermediairen, typelabels en moeilijkheidsgradaties. Bovendien stellen we, om de LLM-capaciteit nauwkeuriger te evalueren en fijnmazige scoring mogelijk te maken, oMeS voor, een dynamisch evaluatiekader dat stapniveau-logica en chemische gelijkenis combineert. Wij analyseren de prestaties van state-of-the-art LLM's, en onze resultaten tonen aan dat hoewel huidige modellen veelbelovende chemische intuïtie vertonen, ze moeite hebben met correct en consistent meerstapsredeneren. Opmerkelijk is dat we vaststellen dat het gebruik van een promptingstrategie en het finetunen van een specialistisch model op onze voorgestelde dataset de prestaties met 50% verhoogt ten opzichte van het toonaangevende closed-source model. Wij hopen dat oMeBench zal dienen als een rigoureuze basis voor het bevorderen van AI-systemen naar echt chemisch redeneren.
English
Organic reaction mechanisms are the stepwise elementary reactions by which reactants form intermediates and products, and are fundamental to understanding chemical reactivity and designing new molecules and reactions. Although large language models (LLMs) have shown promise in understanding chemical tasks such as synthesis design, it is unclear to what extent this reflects genuine chemical reasoning capabilities, i.e., the ability to generate valid intermediates, maintain chemical consistency, and follow logically coherent multi-step pathways. We address this by introducing oMeBench, the first large-scale, expert-curated benchmark for organic mechanism reasoning in organic chemistry. It comprises over 10,000 annotated mechanistic steps with intermediates, type labels, and difficulty ratings. Furthermore, to evaluate LLM capability more precisely and enable fine-grained scoring, we propose oMeS, a dynamic evaluation framework that combines step-level logic and chemical similarity. We analyze the performance of state-of-the-art LLMs, and our results show that although current models display promising chemical intuition, they struggle with correct and consistent multi-step reasoning. Notably, we find that using prompting strategy and fine-tuning a specialist model on our proposed dataset increases performance by 50% over the leading closed-source model. We hope that oMeBench will serve as a rigorous foundation for advancing AI systems toward genuine chemical reasoning.
PDF44October 14, 2025