oMeBench:有機反応機構の解明と推論におけるLLMのロバストなベンチマーキングに向けて
oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning
October 9, 2025
著者: Ruiling Xu, Yifan Zhang, Qingyun Wang, Carl Edwards, Heng Ji
cs.AI
要旨
有機反応機構とは、反応物が中間体や生成物を形成する段階的な素反応のことであり、化学反応性を理解し、新しい分子や反応を設計する上で基本的なものです。大規模言語モデル(LLM)は、合成設計などの化学タスクを理解する上で有望な成果を示していますが、これがどの程度真の化学的推論能力、すなわち有効な中間体を生成し、化学的一貫性を維持し、論理的に一貫した多段階の経路をたどる能力を反映しているかは不明です。この問題に対処するため、我々は有機化学における有機反応機構推論のための初の大規模で専門家が監修したベンチマークであるoMeBenchを導入します。これには、中間体、タイプラベル、難易度評価を含む10,000以上の注釈付き機構ステップが含まれています。さらに、LLMの能力をより正確に評価し、細かいスコアリングを可能にするために、ステップレベルの論理と化学的類似性を組み合わせた動的評価フレームワークであるoMeSを提案します。最先端のLLMの性能を分析した結果、現在のモデルは有望な化学的直感を示すものの、正確で一貫した多段階推論には苦戦していることが明らかになりました。特に、プロンプト戦略を使用し、提案したデータセットで専門モデルをファインチューニングすることで、主要なクローズドソースモデルよりも性能が50%向上することがわかりました。oMeBenchが、AIシステムが真の化学的推論に向けて進歩するための厳密な基盤となることを期待しています。
English
Organic reaction mechanisms are the stepwise elementary reactions by which
reactants form intermediates and products, and are fundamental to understanding
chemical reactivity and designing new molecules and reactions. Although large
language models (LLMs) have shown promise in understanding chemical tasks such
as synthesis design, it is unclear to what extent this reflects genuine
chemical reasoning capabilities, i.e., the ability to generate valid
intermediates, maintain chemical consistency, and follow logically coherent
multi-step pathways. We address this by introducing oMeBench, the first
large-scale, expert-curated benchmark for organic mechanism reasoning in
organic chemistry. It comprises over 10,000 annotated mechanistic steps with
intermediates, type labels, and difficulty ratings. Furthermore, to evaluate
LLM capability more precisely and enable fine-grained scoring, we propose oMeS,
a dynamic evaluation framework that combines step-level logic and chemical
similarity. We analyze the performance of state-of-the-art LLMs, and our
results show that although current models display promising chemical intuition,
they struggle with correct and consistent multi-step reasoning. Notably, we
find that using prompting strategy and fine-tuning a specialist model on our
proposed dataset increases performance by 50% over the leading closed-source
model. We hope that oMeBench will serve as a rigorous foundation for advancing
AI systems toward genuine chemical reasoning.