ChatPaper.aiChatPaper

LLMEval-Logic:ソルバー検証済みの敵対的ハードニングを用いたLLMの論理的推論評価のための中国語ベンチマーク

LLMEval-Logic: A Solver-Verified Chinese Benchmark for Logical Reasoning of LLMs with Adversarial Hardening

May 19, 2026
著者: Ming Zhang, Qiyuan Peng, Yinxi Wei, Yujiong Shen, Kexin Tan, Yuhui Wang, Zhenghao Xiang, Junjie Ye, Zhangyue Yin, Zhiheng Xi, Shihan Dou, Tao Gui, Maxm Pan, Ruizhi Yang, Qi Zhang, Xuanjing Huang
cs.AI

要旨

大規模言語モデル(LLM)の自然言語による論理的推論能力の評価は、ルールに基づくタスクにおいて結論が提示された前提から厳密に導かれなければならないため、不可欠である。既存の論理推論ベンチマークの多くは、サンプリングされた論理式から自然言語項目をテンプレート化して生成されており、粗い形式的注釈しか提供しないか、監査が不十分であり、現在では最先端の推論モデルによってすぐに飽和状態に達している。本稿では、現実的な状況シナリオから構築された中国語論理推論ベンチマークLLMEval-Logicを提案する。そのパイプラインは、先行著者と専門家監修者が自然言語項目とその参照形式化を共同で作成し、Z3を用いて注釈付きの回答を検証し、自然言語から形式言語への評価のための専門家ルーブリックを構築し、閉ループ敵対的ワークフローを通じて選択された項目を強化する。本ベンチマークは2つのペアのサブセットで公開される。1,400の専門家開発ルーブリック原子を含む246項目のベースサブセットと、クローズドモデル空間上で938のマルチステップ副問題を含む190項目のハードサブセットである。LLMEval-Logicで14の最先端LLMを評価した結果、現在のモデルには大きなギャップがあることが明らかになった。最良のモデルでもハード項目正解率は37.5%にとどまり、参照記号を用いた場合でも、評価対象モデルの中で最高のZ3+ルーブリック形式化合同スコアは60.16%にしか達しなかった。本ベンチマークはhttps://github.com/llmeval/LLMEval-Logicで公開されている。
English
Evaluating large language models (LLMs) on natural-language logical reasoning is essential because rule-governed tasks require conclusions to follow strictly from stated premises. Many existing logical-reasoning benchmarks are generated by templating natural-language items from sampled formulas, provide only coarse or unaudited formal annotations, and are now quickly saturated by frontier reasoning models. We present LLMEval-Logic, a Chinese logical reasoning benchmark built from realistic situational scenarios. Its pipeline forward-authors and expert-audits natural-language items together with their reference formalizations, verifies annotated answers with Z3, constructs expert rubrics for natural-to-formal grading, and hardens selected items through a closed-loop adversarial workflow. The benchmark is released in two paired subsets: a 246-item Base subset shipped with 1,400 expert-developed rubric atoms, and a 190-item Hard subset with 938 multi-step sub-questions over closed model spaces. Evaluating 14 frontier LLMs on LLMEval-Logic reveals substantial gaps in current models: the best model reaches only 37.5% Hard Item Accuracy, and even with reference symbols the highest joint Z3+Rubric formalization score among evaluated models reaches only 60.16%. Our benchmark is publicly available at https://github.com/llmeval/LLMEval-Logic.