LLMEval-Logic: Um Benchmark Chinês Verificado por Solucionador para Raciocínio Lógico de LLMs com Endurecimento Adversarial

Resumo

A avaliação de modelos de linguagem de grande porte (LLMs) em raciocínio lógico em linguagem natural é essencial porque tarefas baseadas em regras exigem que as conclusões sigam estritamente as premissas declaradas. Muitos referenciais existentes de raciocínio lógico são gerados por meio de modelos que criam itens em linguagem natural a partir de fórmulas amostradas, fornecem apenas anotações formais grosseiras ou não auditadas, e atualmente são rapidamente saturados por modelos de raciocínio de fronteira. Apresentamos o LLMEval-Logic, um referencial de raciocínio lógico em chinês construído a partir de cenários situacionais realistas. Seu pipeline envolve a elaboração inicial por autores e auditoria por especialistas de itens em linguagem natural juntamente com suas formalizações de referência, verifica as respostas anotadas com o Z3, constrói rubricas especializadas para avaliação da formalização de natural para formal, e endurece itens selecionados por meio de um fluxo de trabalho adversarial em malha fechada. O referencial é disponibilizado em dois subconjuntos emparelhados: um subconjunto Base de 246 itens, acompanhado de 1.400 átomos de rubrica desenvolvidos por especialistas, e um subconjunto Hard de 190 itens, com 938 subquestões de múltiplas etapas em espaços de modelo fechados. A avaliação de 14 LLMs de fronteira no LLMEval-Logic revela lacunas substanciais nos modelos atuais: o melhor modelo atinge apenas 37,5% de Precisão em Itens Hard, e mesmo com símbolos de referência, a maior pontuação conjunta de formalização Z3+Rubrica entre os modelos avaliados chega a apenas 60,16%. Nosso referencial está disponível publicamente em https://github.com/llmeval/LLMEval-Logic.

English

Evaluating large language models (LLMs) on natural-language logical reasoning is essential because rule-governed tasks require conclusions to follow strictly from stated premises. Many existing logical-reasoning benchmarks are generated by templating natural-language items from sampled formulas, provide only coarse or unaudited formal annotations, and are now quickly saturated by frontier reasoning models. We present LLMEval-Logic, a Chinese logical reasoning benchmark built from realistic situational scenarios. Its pipeline forward-authors and expert-audits natural-language items together with their reference formalizations, verifies annotated answers with Z3, constructs expert rubrics for natural-to-formal grading, and hardens selected items through a closed-loop adversarial workflow. The benchmark is released in two paired subsets: a 246-item Base subset shipped with 1,400 expert-developed rubric atoms, and a 190-item Hard subset with 938 multi-step sub-questions over closed model spaces. Evaluating 14 frontier LLMs on LLMEval-Logic reveals substantial gaps in current models: the best model reaches only 37.5% Hard Item Accuracy, and even with reference symbols the highest joint Z3+Rubric formalization score among evaluated models reaches only 60.16%. Our benchmark is publicly available at https://github.com/llmeval/LLMEval-Logic.