ChatPaper.aiChatPaper

oMeBench: Hacia una Evaluación Robusta de Modelos de Lenguaje en la Elucidación y Razonamiento de Mecanismos Orgánicos

oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning

October 9, 2025
Autores: Ruiling Xu, Yifan Zhang, Qingyun Wang, Carl Edwards, Heng Ji
cs.AI

Resumen

Los mecanismos de reacción orgánica son las reacciones elementales paso a paso mediante las cuales los reactivos forman intermediarios y productos, y son fundamentales para comprender la reactividad química y diseñar nuevas moléculas y reacciones. Aunque los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mostrado potencial en la comprensión de tareas químicas como el diseño de síntesis, no está claro hasta qué punto esto refleja capacidades genuinas de razonamiento químico, es decir, la habilidad de generar intermediarios válidos, mantener la consistencia química y seguir vías coherentes de múltiples pasos. Abordamos esto introduciendo oMeBench, el primer punto de referencia a gran escala y curado por expertos para el razonamiento de mecanismos orgánicos en química orgánica. Este comprende más de 10,000 pasos mecanísticos anotados con intermediarios, etiquetas de tipo y clasificaciones de dificultad. Además, para evaluar con mayor precisión la capacidad de los LLMs y permitir una puntuación detallada, proponemos oMeS, un marco de evaluación dinámico que combina la lógica a nivel de paso y la similitud química. Analizamos el rendimiento de los LLMs más avanzados, y nuestros resultados muestran que, aunque los modelos actuales exhiben una intuición química prometedora, tienen dificultades con el razonamiento correcto y consistente de múltiples pasos. En particular, encontramos que el uso de estrategias de "prompting" y el ajuste fino de un modelo especializado en nuestro conjunto de datos propuesto aumenta el rendimiento en un 50% sobre el modelo líder de código cerrado. Esperamos que oMeBench sirva como una base rigurosa para avanzar los sistemas de IA hacia un razonamiento químico genuino.
English
Organic reaction mechanisms are the stepwise elementary reactions by which reactants form intermediates and products, and are fundamental to understanding chemical reactivity and designing new molecules and reactions. Although large language models (LLMs) have shown promise in understanding chemical tasks such as synthesis design, it is unclear to what extent this reflects genuine chemical reasoning capabilities, i.e., the ability to generate valid intermediates, maintain chemical consistency, and follow logically coherent multi-step pathways. We address this by introducing oMeBench, the first large-scale, expert-curated benchmark for organic mechanism reasoning in organic chemistry. It comprises over 10,000 annotated mechanistic steps with intermediates, type labels, and difficulty ratings. Furthermore, to evaluate LLM capability more precisely and enable fine-grained scoring, we propose oMeS, a dynamic evaluation framework that combines step-level logic and chemical similarity. We analyze the performance of state-of-the-art LLMs, and our results show that although current models display promising chemical intuition, they struggle with correct and consistent multi-step reasoning. Notably, we find that using prompting strategy and fine-tuning a specialist model on our proposed dataset increases performance by 50% over the leading closed-source model. We hope that oMeBench will serve as a rigorous foundation for advancing AI systems toward genuine chemical reasoning.
PDF44October 14, 2025