LLMEval-Logic: Ein solver-verifizierter chinesischer Benchmark für logisches Schlussfolgern von LLMs mit adversarieller Härtung

Zusammenfassung

Die Bewertung großer Sprachmodelle (LLMs) hinsichtlich logischen Denkens in natürlicher Sprache ist essenziell, da regelbasierte Aufgaben verlangen, dass Schlussfolgerungen strikt aus den angegebenen Prämissen folgen. Viele bestehende Benchmarks für logisches Denken werden durch die Vorlagenbildung natürlicher Sprachelemente aus abgetasteten Formeln generiert, bieten nur grobe oder nicht geprüfte formale Annotationen und werden inzwischen schnell von führenden Reasoning-Modellen gesättigt. Wir stellen LLMEval-Logic vor, einen chinesischen Benchmark für logisches Denken, der auf realistischen situativen Szenarien basiert. Seine Pipeline erstellt vorab von Autoren und prüft durch Experten natürliche Sprachelemente zusammen mit ihren Referenzformalisierungen, verifiziert annotierte Antworten mit Z3, erstellt Expertenbewertungsraster für die Bewertung von natürlich zu formal und härtet ausgewählte Elemente durch einen geschlossenen adversarialen Arbeitsablauf. Der Benchmark wird in zwei gepaarten Teilmengen veröffentlicht: einer Basisteilmenge mit 246 Elementen, die mit 1.400 von Experten entwickelten Bewertungsraster-Atomen ausgeliefert wird, und einer schwierigen Teilmenge mit 190 Elementen mit 938 mehrschrittigen Unterfragen über geschlossene Modellräume. Die Bewertung von 14 führenden LLMs auf LLMEval-Logic zeigt erhebliche Lücken bei aktuellen Modellen: Das beste Modell erreicht nur 37,5 % Genauigkeit bei schwierigen Elementen, und selbst mit Referenzsymbolen erreicht der höchste gemeinsame Z3+Bewertungsraster-Formalisierungswert unter den bewerteten Modellen nur 60,16 %. Unser Benchmark ist öffentlich verfügbar unter https://github.com/llmeval/LLMEval-Logic.

English

Evaluating large language models (LLMs) on natural-language logical reasoning is essential because rule-governed tasks require conclusions to follow strictly from stated premises. Many existing logical-reasoning benchmarks are generated by templating natural-language items from sampled formulas, provide only coarse or unaudited formal annotations, and are now quickly saturated by frontier reasoning models. We present LLMEval-Logic, a Chinese logical reasoning benchmark built from realistic situational scenarios. Its pipeline forward-authors and expert-audits natural-language items together with their reference formalizations, verifies annotated answers with Z3, constructs expert rubrics for natural-to-formal grading, and hardens selected items through a closed-loop adversarial workflow. The benchmark is released in two paired subsets: a 246-item Base subset shipped with 1,400 expert-developed rubric atoms, and a 190-item Hard subset with 938 multi-step sub-questions over closed model spaces. Evaluating 14 frontier LLMs on LLMEval-Logic reveals substantial gaps in current models: the best model reaches only 37.5% Hard Item Accuracy, and even with reference symbols the highest joint Z3+Rubric formalization score among evaluated models reaches only 60.16%. Our benchmark is publicly available at https://github.com/llmeval/LLMEval-Logic.