oMeBench: Rumo à Avaliação Robust
oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning
October 9, 2025
Autores: Ruiling Xu, Yifan Zhang, Qingyun Wang, Carl Edwards, Heng Ji
cs.AI
Resumo
Os mecanismos de reação orgânica são as reações elementares passo a passo pelas quais os reagentes formam intermediários e produtos, sendo fundamentais para compreender a reatividade química e projetar novas moléculas e reações. Embora os grandes modelos de linguagem (LLMs) tenham mostrado potencial na compreensão de tarefas químicas, como o design de sínteses, não está claro até que ponto isso reflete capacidades genuínas de raciocínio químico, ou seja, a habilidade de gerar intermediários válidos, manter a consistência química e seguir caminhos de múltiplos passos logicamente coerentes. Abordamos isso introduzindo o oMeBench, o primeiro benchmark em larga escala e curado por especialistas para raciocínio de mecanismos orgânicos em química orgânica. Ele compreende mais de 10.000 passos mecanísticos anotados com intermediários, rótulos de tipo e classificações de dificuldade. Além disso, para avaliar a capacidade dos LLMs com maior precisão e permitir uma pontuação refinada, propomos o oMeS, um framework de avaliação dinâmica que combina lógica em nível de passo e similaridade química. Analisamos o desempenho dos LLMs de última geração, e nossos resultados mostram que, embora os modelos atuais exibam intuição química promissora, eles lutam com o raciocínio correto e consistente de múltiplos passos. Notavelmente, descobrimos que o uso de estratégias de prompting e o ajuste fino de um modelo especialista em nosso conjunto de dados proposto aumentam o desempenho em 50% em relação ao modelo líder de código fechado. Esperamos que o oMeBench sirva como uma base rigorosa para avançar os sistemas de IA em direção ao raciocínio químico genuíno.
English
Organic reaction mechanisms are the stepwise elementary reactions by which
reactants form intermediates and products, and are fundamental to understanding
chemical reactivity and designing new molecules and reactions. Although large
language models (LLMs) have shown promise in understanding chemical tasks such
as synthesis design, it is unclear to what extent this reflects genuine
chemical reasoning capabilities, i.e., the ability to generate valid
intermediates, maintain chemical consistency, and follow logically coherent
multi-step pathways. We address this by introducing oMeBench, the first
large-scale, expert-curated benchmark for organic mechanism reasoning in
organic chemistry. It comprises over 10,000 annotated mechanistic steps with
intermediates, type labels, and difficulty ratings. Furthermore, to evaluate
LLM capability more precisely and enable fine-grained scoring, we propose oMeS,
a dynamic evaluation framework that combines step-level logic and chemical
similarity. We analyze the performance of state-of-the-art LLMs, and our
results show that although current models display promising chemical intuition,
they struggle with correct and consistent multi-step reasoning. Notably, we
find that using prompting strategy and fine-tuning a specialist model on our
proposed dataset increases performance by 50% over the leading closed-source
model. We hope that oMeBench will serve as a rigorous foundation for advancing
AI systems toward genuine chemical reasoning.