LLMEval-Logic: Un benchmark en chino verificado por solucionador para el razonamiento lógico de LLMs con endurecimiento adversarial

Resumen

Evaluar modelos de lenguaje grandes (LLMs) en razonamiento lógico en lenguaje natural es esencial porque las tareas gobernadas por reglas requieren que las conclusiones se deriven estrictamente de las premisas establecidas. Muchos puntos de referencia existentes de razonamiento lógico se generan mediante plantillas de ítems en lenguaje natural a partir de fórmulas muestreadas, proporcionan solo anotaciones formales gruesas o no auditadas, y actualmente son rápidamente saturados por modelos de razonamiento de vanguardia. Presentamos LLMEval-Logic, un punto de referencia de razonamiento lógico en chino construido a partir de escenarios situacionales realistas. Su flujo de trabajo redacta inicialmente y somete a auditoría de expertos los ítems en lenguaje natural junto con sus formalizaciones de referencia, verifica las respuestas anotadas con Z3, construye rúbricas de expertos para la calificación de la conversión de natural a formal, y endurece elementos seleccionados mediante un flujo de trabajo adversarial de circuito cerrado. El punto de referencia se publica en dos subconjuntos emparejados: un subconjunto Base de 246 ítems acompañado de 1400 átomos de rúbrica desarrollados por expertos, y un subconjunto Hard de 190 ítems con 938 subpreguntas de múltiples pasos sobre espacios de modelos cerrados. Al evaluar 14 modelos de lenguaje grandes de vanguardia en LLMEval-Logic, se revelan brechas sustanciales en los modelos actuales: el mejor modelo alcanza solo un 37,5% de precisión en ítems difíciles, e incluso con símbolos de referencia, la puntuación conjunta de formalización Z3+Rúbrica más alta entre los modelos evaluados alcanza solo el 60,16%. Nuestro punto de referencia está disponible públicamente en https://github.com/llmeval/LLMEval-Logic.

English

Evaluating large language models (LLMs) on natural-language logical reasoning is essential because rule-governed tasks require conclusions to follow strictly from stated premises. Many existing logical-reasoning benchmarks are generated by templating natural-language items from sampled formulas, provide only coarse or unaudited formal annotations, and are now quickly saturated by frontier reasoning models. We present LLMEval-Logic, a Chinese logical reasoning benchmark built from realistic situational scenarios. Its pipeline forward-authors and expert-audits natural-language items together with their reference formalizations, verifies annotated answers with Z3, constructs expert rubrics for natural-to-formal grading, and hardens selected items through a closed-loop adversarial workflow. The benchmark is released in two paired subsets: a 246-item Base subset shipped with 1,400 expert-developed rubric atoms, and a 190-item Hard subset with 938 multi-step sub-questions over closed model spaces. Evaluating 14 frontier LLMs on LLMEval-Logic reveals substantial gaps in current models: the best model reaches only 37.5% Hard Item Accuracy, and even with reference symbols the highest joint Z3+Rubric formalization score among evaluated models reaches only 60.16%. Our benchmark is publicly available at https://github.com/llmeval/LLMEval-Logic.