oMeBench : Vers un benchmarking robuste des LLM dans l'élucidation et le raisonnement des mécanismes organiques
oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning
October 9, 2025
papers.authors: Ruiling Xu, Yifan Zhang, Qingyun Wang, Carl Edwards, Heng Ji
cs.AI
papers.abstract
Les mécanismes de réaction organique sont les réactions élémentaires séquentielles par lesquelles les réactifs forment des intermédiaires et des produits, et sont fondamentaux pour comprendre la réactivité chimique et concevoir de nouvelles molécules et réactions. Bien que les grands modèles de langage (LLM) aient montré des résultats prometteurs dans la compréhension de tâches chimiques telles que la conception de synthèses, il n'est pas clair dans quelle mesure cela reflète de véritables capacités de raisonnement chimique, c'est-à-dire la capacité à générer des intermédiaires valides, à maintenir une cohérence chimique et à suivre des voies multi-étapes logiquement cohérentes. Nous abordons cette question en introduisant oMeBench, le premier benchmark à grande échelle, expertisé, pour le raisonnement sur les mécanismes organiques en chimie organique. Il comprend plus de 10 000 étapes mécanistiques annotées avec des intermédiaires, des étiquettes de type et des niveaux de difficulté. De plus, pour évaluer plus précisément les capacités des LLM et permettre un scoring granulaire, nous proposons oMeS, un cadre d'évaluation dynamique qui combine la logique au niveau des étapes et la similarité chimique. Nous analysons les performances des LLM de pointe, et nos résultats montrent que bien que les modèles actuels affichent une intuition chimique prometteuse, ils peinent à effectuer un raisonnement multi-étapes correct et cohérent. Notamment, nous constatons que l'utilisation d'une stratégie de prompting et le fine-tuning d'un modèle spécialisé sur notre jeu de données proposé augmentent les performances de 50 % par rapport au modèle propriétaire leader. Nous espérons qu'oMeBench servira de fondement rigoureux pour faire progresser les systèmes d'IA vers un véritable raisonnement chimique.
English
Organic reaction mechanisms are the stepwise elementary reactions by which
reactants form intermediates and products, and are fundamental to understanding
chemical reactivity and designing new molecules and reactions. Although large
language models (LLMs) have shown promise in understanding chemical tasks such
as synthesis design, it is unclear to what extent this reflects genuine
chemical reasoning capabilities, i.e., the ability to generate valid
intermediates, maintain chemical consistency, and follow logically coherent
multi-step pathways. We address this by introducing oMeBench, the first
large-scale, expert-curated benchmark for organic mechanism reasoning in
organic chemistry. It comprises over 10,000 annotated mechanistic steps with
intermediates, type labels, and difficulty ratings. Furthermore, to evaluate
LLM capability more precisely and enable fine-grained scoring, we propose oMeS,
a dynamic evaluation framework that combines step-level logic and chemical
similarity. We analyze the performance of state-of-the-art LLMs, and our
results show that although current models display promising chemical intuition,
they struggle with correct and consistent multi-step reasoning. Notably, we
find that using prompting strategy and fine-tuning a specialist model on our
proposed dataset increases performance by 50% over the leading closed-source
model. We hope that oMeBench will serve as a rigorous foundation for advancing
AI systems toward genuine chemical reasoning.