oMeBench : Vers un benchmarking robuste des LLM dans l'élucidation et le raisonnement des mécanismes organiques

papers.abstract

Les mécanismes de réaction organique sont les réactions élémentaires séquentielles par lesquelles les réactifs forment des intermédiaires et des produits, et sont fondamentaux pour comprendre la réactivité chimique et concevoir de nouvelles molécules et réactions. Bien que les grands modèles de langage (LLM) aient montré des résultats prometteurs dans la compréhension de tâches chimiques telles que la conception de synthèses, il n'est pas clair dans quelle mesure cela reflète de véritables capacités de raisonnement chimique, c'est-à-dire la capacité à générer des intermédiaires valides, à maintenir une cohérence chimique et à suivre des voies multi-étapes logiquement cohérentes. Nous abordons cette question en introduisant oMeBench, le premier benchmark à grande échelle, expertisé, pour le raisonnement sur les mécanismes organiques en chimie organique. Il comprend plus de 10 000 étapes mécanistiques annotées avec des intermédiaires, des étiquettes de type et des niveaux de difficulté. De plus, pour évaluer plus précisément les capacités des LLM et permettre un scoring granulaire, nous proposons oMeS, un cadre d'évaluation dynamique qui combine la logique au niveau des étapes et la similarité chimique. Nous analysons les performances des LLM de pointe, et nos résultats montrent que bien que les modèles actuels affichent une intuition chimique prometteuse, ils peinent à effectuer un raisonnement multi-étapes correct et cohérent. Notamment, nous constatons que l'utilisation d'une stratégie de prompting et le fine-tuning d'un modèle spécialisé sur notre jeu de données proposé augmentent les performances de 50 % par rapport au modèle propriétaire leader. Nous espérons qu'oMeBench servira de fondement rigoureux pour faire progresser les systèmes d'IA vers un véritable raisonnement chimique.

English

Organic reaction mechanisms are the stepwise elementary reactions by which reactants form intermediates and products, and are fundamental to understanding chemical reactivity and designing new molecules and reactions. Although large language models (LLMs) have shown promise in understanding chemical tasks such as synthesis design, it is unclear to what extent this reflects genuine chemical reasoning capabilities, i.e., the ability to generate valid intermediates, maintain chemical consistency, and follow logically coherent multi-step pathways. We address this by introducing oMeBench, the first large-scale, expert-curated benchmark for organic mechanism reasoning in organic chemistry. It comprises over 10,000 annotated mechanistic steps with intermediates, type labels, and difficulty ratings. Furthermore, to evaluate LLM capability more precisely and enable fine-grained scoring, we propose oMeS, a dynamic evaluation framework that combines step-level logic and chemical similarity. We analyze the performance of state-of-the-art LLMs, and our results show that although current models display promising chemical intuition, they struggle with correct and consistent multi-step reasoning. Notably, we find that using prompting strategy and fine-tuning a specialist model on our proposed dataset increases performance by 50% over the leading closed-source model. We hope that oMeBench will serve as a rigorous foundation for advancing AI systems toward genuine chemical reasoning.

oMeBench : Vers un benchmarking robuste des LLM dans l'élucidation et le raisonnement des mécanismes organiques

oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning

papers.abstract

Support