oMeBench: Verso un Benchmarking Robusto dei Modelli Linguistici nell'Elucidazione e Ragionamento dei Meccanismi Organici

Abstract

I meccanismi di reazione organica sono le reazioni elementari graduali attraverso le quali i reagenti formano intermedi e prodotti, e sono fondamentali per comprendere la reattività chimica e progettare nuove molecole e reazioni. Sebbene i grandi modelli linguistici (LLM) abbiano mostrato promettenti capacità nel comprendere compiti chimici come la progettazione di sintesi, non è chiaro fino a che punto ciò rifletta una genuina capacità di ragionamento chimico, ovvero la capacità di generare intermedi validi, mantenere la coerenza chimica e seguire percorsi multi-step logicamente coerenti. Affrontiamo questo problema introducendo oMeBench, il primo benchmark su larga scala, curato da esperti, per il ragionamento sui meccanismi organici in chimica organica. Esso comprende oltre 10.000 passaggi meccanicistici annotati con intermedi, etichette di tipo e valutazioni di difficoltà. Inoltre, per valutare più precisamente le capacità degli LLM e consentire un punteggio dettagliato, proponiamo oMeS, un framework di valutazione dinamico che combina la logica a livello di passaggio e la similarità chimica. Analizziamo le prestazioni degli LLM all'avanguardia, e i nostri risultati mostrano che, sebbene i modelli attuali mostrino una promettente intuizione chimica, faticano nel ragionamento multi-step corretto e coerente. In particolare, troviamo che l'uso di strategie di prompting e il fine-tuning di un modello specializzato sul nostro dataset proposto aumentano le prestazioni del 50% rispetto al principale modello closed-source. Speriamo che oMeBench possa servire come una solida base per far progredire i sistemi di IA verso un genuino ragionamento chimico.

English

Organic reaction mechanisms are the stepwise elementary reactions by which reactants form intermediates and products, and are fundamental to understanding chemical reactivity and designing new molecules and reactions. Although large language models (LLMs) have shown promise in understanding chemical tasks such as synthesis design, it is unclear to what extent this reflects genuine chemical reasoning capabilities, i.e., the ability to generate valid intermediates, maintain chemical consistency, and follow logically coherent multi-step pathways. We address this by introducing oMeBench, the first large-scale, expert-curated benchmark for organic mechanism reasoning in organic chemistry. It comprises over 10,000 annotated mechanistic steps with intermediates, type labels, and difficulty ratings. Furthermore, to evaluate LLM capability more precisely and enable fine-grained scoring, we propose oMeS, a dynamic evaluation framework that combines step-level logic and chemical similarity. We analyze the performance of state-of-the-art LLMs, and our results show that although current models display promising chemical intuition, they struggle with correct and consistent multi-step reasoning. Notably, we find that using prompting strategy and fine-tuning a specialist model on our proposed dataset increases performance by 50% over the leading closed-source model. We hope that oMeBench will serve as a rigorous foundation for advancing AI systems toward genuine chemical reasoning.

oMeBench: Verso un Benchmarking Robusto dei Modelli Linguistici nell'Elucidazione e Ragionamento dei Meccanismi Organici

oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning

Abstract

Support