oMeBench: Auf dem Weg zu robustem Benchmarking von LLMs in der organischen Mechanismusaufklärung und -argumentation
oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning
October 9, 2025
papers.authors: Ruiling Xu, Yifan Zhang, Qingyun Wang, Carl Edwards, Heng Ji
cs.AI
papers.abstract
Organische Reaktionsmechanismen sind die schrittweisen Elementarreaktionen, durch die Ausgangsstoffe Zwischenprodukte und Endprodukte bilden. Sie sind grundlegend für das Verständnis chemischer Reaktivität und die Entwicklung neuer Moleküle und Reaktionen. Obwohl große Sprachmodelle (LLMs) vielversprechende Fähigkeiten bei chemischen Aufgaben wie der Syntheseplanung gezeigt haben, ist unklar, inwieweit dies echte chemische Denkfähigkeiten widerspiegelt, d. h. die Fähigkeit, gültige Zwischenprodukte zu generieren, chemische Konsistenz zu wahren und logisch kohärente Mehrschrittpfade zu verfolgen. Wir adressieren dies durch die Einführung von oMeBench, dem ersten groß angelegten, von Experten kuratierten Benchmark für das Verständnis organischer Reaktionsmechanismen in der organischen Chemie. Es umfasst über 10.000 annotierte mechanistische Schritte mit Zwischenprodukten, Typkennzeichnungen und Schwierigkeitsbewertungen. Darüber hinaus schlagen wir oMeS vor, ein dynamisches Bewertungsframework, das schrittweise Logik und chemische Ähnlichkeit kombiniert, um die Fähigkeiten von LLMs präziser zu bewerten und eine fein abgestufte Bewertung zu ermöglichen. Wir analysieren die Leistung modernster LLMs, und unsere Ergebnisse zeigen, dass aktuelle Modelle zwar vielversprechende chemische Intuition aufweisen, jedoch mit korrekter und konsistenter Mehrschrittargumentation kämpfen. Bemerkenswerterweise stellen wir fest, dass die Verwendung von Prompting-Strategien und das Feinabstimmen eines Spezialmodells auf unser vorgeschlagenes Datenset die Leistung um 50 % gegenüber dem führenden Closed-Source-Modell steigert. Wir hoffen, dass oMeBench als rigorose Grundlage für die Weiterentwicklung von KI-Systemen hin zu echtem chemischen Denken dienen wird.
English
Organic reaction mechanisms are the stepwise elementary reactions by which
reactants form intermediates and products, and are fundamental to understanding
chemical reactivity and designing new molecules and reactions. Although large
language models (LLMs) have shown promise in understanding chemical tasks such
as synthesis design, it is unclear to what extent this reflects genuine
chemical reasoning capabilities, i.e., the ability to generate valid
intermediates, maintain chemical consistency, and follow logically coherent
multi-step pathways. We address this by introducing oMeBench, the first
large-scale, expert-curated benchmark for organic mechanism reasoning in
organic chemistry. It comprises over 10,000 annotated mechanistic steps with
intermediates, type labels, and difficulty ratings. Furthermore, to evaluate
LLM capability more precisely and enable fine-grained scoring, we propose oMeS,
a dynamic evaluation framework that combines step-level logic and chemical
similarity. We analyze the performance of state-of-the-art LLMs, and our
results show that although current models display promising chemical intuition,
they struggle with correct and consistent multi-step reasoning. Notably, we
find that using prompting strategy and fine-tuning a specialist model on our
proposed dataset increases performance by 50% over the leading closed-source
model. We hope that oMeBench will serve as a rigorous foundation for advancing
AI systems toward genuine chemical reasoning.