LLMEval-Logic: верифицированный решателем китайский бенчмарк для оценки логического рассуждения LLM с состязательным усилением

Аннотация

Оценка больших языковых моделей (LLM) на предмет логического рассуждения на естественном языке необходима, поскольку задачи, регулируемые правилами, требуют строгого следования выводам из заданных предпосылок. Многие существующие тестовые наборы для логического рассуждения создаются путем шаблонизации элементов на естественном языке на основе выбранных формул, предоставляют лишь грубые или непроверенные формальные аннотации и в настоящее время быстро насыщаются передовыми моделями рассуждения. Мы представляем LLMEval-Logic — китайский тестовый набор для логического рассуждения, построенный на реалистичных ситуационных сценариях. Его конвейер включает предварительное авторское создание и экспертную проверку элементов на естественном языке вместе с эталонными формализациями, верификацию аннотированных ответов с помощью Z3, разработку экспертных рубрик для оценки перехода от естественного языка к формальному, а также усиление отобранных элементов посредством замкнутого состязательного процесса. Тестовый набор выпускается в двух парных подмножествах: базовое подмножество (Base) из 246 элементов, поставляемое с 1400 разработанными экспертами атомами рубрик, и сложное подмножество (Hard) из 190 элементов с 938 многошаговыми подвопросами для замкнутых модельных пространств. Оценка 14 передовых LLM на LLMEval-Logic выявляет существенные пробелы в современных моделях: лучшая модель достигает лишь 37,5% точности на сложных элементах, а даже при наличии эталонных символов наивысший совместный показатель формализации Z3+Рубрика среди оцененных моделей достигает лишь 60,16%. Наш тестовый набор общедоступен по адресу https://github.com/llmeval/LLMEval-Logic.

English

Evaluating large language models (LLMs) on natural-language logical reasoning is essential because rule-governed tasks require conclusions to follow strictly from stated premises. Many existing logical-reasoning benchmarks are generated by templating natural-language items from sampled formulas, provide only coarse or unaudited formal annotations, and are now quickly saturated by frontier reasoning models. We present LLMEval-Logic, a Chinese logical reasoning benchmark built from realistic situational scenarios. Its pipeline forward-authors and expert-audits natural-language items together with their reference formalizations, verifies annotated answers with Z3, constructs expert rubrics for natural-to-formal grading, and hardens selected items through a closed-loop adversarial workflow. The benchmark is released in two paired subsets: a 246-item Base subset shipped with 1,400 expert-developed rubric atoms, and a 190-item Hard subset with 938 multi-step sub-questions over closed model spaces. Evaluating 14 frontier LLMs on LLMEval-Logic reveals substantial gaps in current models: the best model reaches only 37.5% Hard Item Accuracy, and even with reference symbols the highest joint Z3+Rubric formalization score among evaluated models reaches only 60.16%. Our benchmark is publicly available at https://github.com/llmeval/LLMEval-Logic.