oMeBench: Verso un Benchmarking Robusto dei Modelli Linguistici nell'Elucidazione e Ragionamento dei Meccanismi Organici
oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning
October 9, 2025
Autori: Ruiling Xu, Yifan Zhang, Qingyun Wang, Carl Edwards, Heng Ji
cs.AI
Abstract
I meccanismi di reazione organica sono le reazioni elementari graduali attraverso le quali i reagenti formano intermedi e prodotti, e sono fondamentali per comprendere la reattività chimica e progettare nuove molecole e reazioni. Sebbene i grandi modelli linguistici (LLM) abbiano mostrato promettenti capacità nel comprendere compiti chimici come la progettazione di sintesi, non è chiaro fino a che punto ciò rifletta una genuina capacità di ragionamento chimico, ovvero la capacità di generare intermedi validi, mantenere la coerenza chimica e seguire percorsi multi-step logicamente coerenti. Affrontiamo questo problema introducendo oMeBench, il primo benchmark su larga scala, curato da esperti, per il ragionamento sui meccanismi organici in chimica organica. Esso comprende oltre 10.000 passaggi meccanicistici annotati con intermedi, etichette di tipo e valutazioni di difficoltà. Inoltre, per valutare più precisamente le capacità degli LLM e consentire un punteggio dettagliato, proponiamo oMeS, un framework di valutazione dinamico che combina la logica a livello di passaggio e la similarità chimica. Analizziamo le prestazioni degli LLM all'avanguardia, e i nostri risultati mostrano che, sebbene i modelli attuali mostrino una promettente intuizione chimica, faticano nel ragionamento multi-step corretto e coerente. In particolare, troviamo che l'uso di strategie di prompting e il fine-tuning di un modello specializzato sul nostro dataset proposto aumentano le prestazioni del 50% rispetto al principale modello closed-source. Speriamo che oMeBench possa servire come una solida base per far progredire i sistemi di IA verso un genuino ragionamento chimico.
English
Organic reaction mechanisms are the stepwise elementary reactions by which
reactants form intermediates and products, and are fundamental to understanding
chemical reactivity and designing new molecules and reactions. Although large
language models (LLMs) have shown promise in understanding chemical tasks such
as synthesis design, it is unclear to what extent this reflects genuine
chemical reasoning capabilities, i.e., the ability to generate valid
intermediates, maintain chemical consistency, and follow logically coherent
multi-step pathways. We address this by introducing oMeBench, the first
large-scale, expert-curated benchmark for organic mechanism reasoning in
organic chemistry. It comprises over 10,000 annotated mechanistic steps with
intermediates, type labels, and difficulty ratings. Furthermore, to evaluate
LLM capability more precisely and enable fine-grained scoring, we propose oMeS,
a dynamic evaluation framework that combines step-level logic and chemical
similarity. We analyze the performance of state-of-the-art LLMs, and our
results show that although current models display promising chemical intuition,
they struggle with correct and consistent multi-step reasoning. Notably, we
find that using prompting strategy and fine-tuning a specialist model on our
proposed dataset increases performance by 50% over the leading closed-source
model. We hope that oMeBench will serve as a rigorous foundation for advancing
AI systems toward genuine chemical reasoning.