LLMEval-Logic : Un benchmark chinois vérifié par solveur pour le raisonnement logique des LLMs avec durcissement adversarial

Résumé

L'évaluation des grands modèles de langage (LLMs) sur le raisonnement logique en langage naturel est essentielle, car les tâches régies par des règles exigent que les conclusions découlent strictement des prémisses énoncées. De nombreux bancs d'essai existants pour le raisonnement logique sont générés par la modélisation d'éléments en langage naturel à partir de formules échantillonnées, ne fournissent que des annotations formelles grossières ou non vérifiées, et sont désormais rapidement saturés par les modèles de raisonnement de pointe. Nous présentons LLMEval-Logic, un banc d'essai de raisonnement logique en chinois construit à partir de scénarios situationnels réalistes. Son pipeline génère en amont des éléments en langage naturel ainsi que leurs formalisations de référence, les fait expertiser, vérifie les réponses annotées avec Z3, élabore des grilles d'évaluation expertes pour la notation du naturel au formel, et renforce les éléments sélectionnés grâce à un workflow adversarial en boucle fermée. Le banc d'essai est publié en deux sous-ensembles appariés : un sous-ensemble Base de 246 éléments accompagné de 1 400 atomes de grille d'évaluation développés par des experts, et un sous-ensemble Hard de 190 éléments avec 938 sous-questions multi-étapes couvrant des espaces de modèles fermés. L'évaluation de 14 LLMs de pointe sur LLMEval-Logic révèle des lacunes substantielles dans les modèles actuels : le meilleur modèle n'atteint que 37,5 % de précision sur les éléments Hard, et même avec des symboles de référence, le score de formalisation conjoint Z3+Grille le plus élevé parmi les modèles évalués n'atteint que 60,16 %. Notre banc d'essai est accessible publiquement à l'adresse https://github.com/llmeval/LLMEval-Logic.

English

Evaluating large language models (LLMs) on natural-language logical reasoning is essential because rule-governed tasks require conclusions to follow strictly from stated premises. Many existing logical-reasoning benchmarks are generated by templating natural-language items from sampled formulas, provide only coarse or unaudited formal annotations, and are now quickly saturated by frontier reasoning models. We present LLMEval-Logic, a Chinese logical reasoning benchmark built from realistic situational scenarios. Its pipeline forward-authors and expert-audits natural-language items together with their reference formalizations, verifies annotated answers with Z3, constructs expert rubrics for natural-to-formal grading, and hardens selected items through a closed-loop adversarial workflow. The benchmark is released in two paired subsets: a 246-item Base subset shipped with 1,400 expert-developed rubric atoms, and a 190-item Hard subset with 938 multi-step sub-questions over closed model spaces. Evaluating 14 frontier LLMs on LLMEval-Logic reveals substantial gaps in current models: the best model reaches only 37.5% Hard Item Accuracy, and even with reference symbols the highest joint Z3+Rubric formalization score among evaluated models reaches only 60.16%. Our benchmark is publicly available at https://github.com/llmeval/LLMEval-Logic.