ChatPaper.aiChatPaper

oMeBench: 유기 메커니즘 해명 및 추론에서의 LLM 강건한 벤치마킹을 향하여

oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning

October 9, 2025
저자: Ruiling Xu, Yifan Zhang, Qingyun Wang, Carl Edwards, Heng Ji
cs.AI

초록

유기 반응 메커니즘은 반응물이 중간체와 생성물을 형성하는 단계별 기본 반응으로, 화학적 반응성을 이해하고 새로운 분자와 반응을 설계하는 데 필수적입니다. 대규모 언어 모델(LLM)이 합성 설계와 같은 화학 작업을 이해하는 데 유망한 성과를 보였지만, 이들이 실제로 유효한 중간체를 생성하고 화학적 일관성을 유지하며 논리적으로 일관된 다단계 경로를 따르는 진정한 화학적 추론 능력을 어느 정도 반영하는지는 불분명합니다. 우리는 이를 해결하기 위해 유기 화학 분야에서 최초로 대규모 전문가 검증 벤치마크인 oMeBench를 소개합니다. 이 벤치마크는 중간체, 유형 레이블 및 난이도 등급이 포함된 10,000개 이상의 주석이 달린 메커니즘 단계로 구성되어 있습니다. 또한, LLM의 능력을 더 정밀하게 평가하고 세분화된 점수를 산출할 수 있도록 단계별 논리와 화학적 유사성을 결합한 동적 평가 프레임워크인 oMeS를 제안합니다. 우리는 최첨단 LLM의 성능을 분석했으며, 그 결과 현재 모델들이 유망한 화학적 직관을 보이지만 정확하고 일관된 다단계 추론에는 어려움을 겪는 것으로 나타났습니다. 특히, 우리가 제안한 데이터셋에 대해 전문가 모델을 미세 조정하고 프롬프트 전략을 사용하면 선도적인 클로즈드 소스 모델 대비 성능이 50% 향상되는 것을 확인했습니다. 우리는 oMeBench가 AI 시스템이 진정한 화학적 추론을 향해 나아가는 데 엄격한 기반이 되기를 바랍니다.
English
Organic reaction mechanisms are the stepwise elementary reactions by which reactants form intermediates and products, and are fundamental to understanding chemical reactivity and designing new molecules and reactions. Although large language models (LLMs) have shown promise in understanding chemical tasks such as synthesis design, it is unclear to what extent this reflects genuine chemical reasoning capabilities, i.e., the ability to generate valid intermediates, maintain chemical consistency, and follow logically coherent multi-step pathways. We address this by introducing oMeBench, the first large-scale, expert-curated benchmark for organic mechanism reasoning in organic chemistry. It comprises over 10,000 annotated mechanistic steps with intermediates, type labels, and difficulty ratings. Furthermore, to evaluate LLM capability more precisely and enable fine-grained scoring, we propose oMeS, a dynamic evaluation framework that combines step-level logic and chemical similarity. We analyze the performance of state-of-the-art LLMs, and our results show that although current models display promising chemical intuition, they struggle with correct and consistent multi-step reasoning. Notably, we find that using prompting strategy and fine-tuning a specialist model on our proposed dataset increases performance by 50% over the leading closed-source model. We hope that oMeBench will serve as a rigorous foundation for advancing AI systems toward genuine chemical reasoning.
PDF44October 14, 2025