ZebraLogic: Sobre los Límites de Escalabilidad de LLMs para el Razonamiento Lógico
ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning
February 3, 2025
Autores: Bill Yuchen Lin, Ronan Le Bras, Kyle Richardson, Ashish Sabharwal, Radha Poovendran, Peter Clark, Yejin Choi
cs.AI
Resumen
Investigamos las capacidades de razonamiento lógico de los grandes modelos de lenguaje (LLMs) y su escalabilidad en el razonamiento no monótono complejo. Con este fin, presentamos ZebraLogic, un marco de evaluación integral para evaluar el rendimiento de razonamiento de LLM en acertijos de cuadrícula lógica derivados de problemas de satisfacción de restricciones (CSPs). ZebraLogic permite la generación de acertijos con complejidad controlable y cuantificable, facilitando un estudio sistemático de los límites de escalado de modelos como Llama, modelos o1 y DeepSeek-R1. Al abarcar una amplia gama de complejidades de espacio de búsqueda y diversas restricciones lógicas, ZebraLogic proporciona un entorno estructurado para evaluar el razonamiento bajo dificultades crecientes.
Nuestros resultados revelan una disminución significativa en la precisión a medida que crece la complejidad del problema, un fenómeno que denominamos la maldición de la complejidad. Esta limitación persiste incluso con modelos más grandes y mayor tiempo de inferencia computacional, lo que sugiere limitaciones inherentes en las capacidades de razonamiento actuales de LLM. Además, exploramos estrategias para mejorar el razonamiento lógico, incluyendo el muestreo Best-of-N, mecanismos de retroceso y indicaciones de autoverificación. Nuestros hallazgos ofrecen ideas críticas sobre la escalabilidad del razonamiento de LLM, resaltan limitaciones fundamentales y esbozan posibles direcciones para la mejora.
English
We investigate the logical reasoning capabilities of large language models
(LLMs) and their scalability in complex non-monotonic reasoning. To this end,
we introduce ZebraLogic, a comprehensive evaluation framework for assessing LLM
reasoning performance on logic grid puzzles derived from constraint
satisfaction problems (CSPs). ZebraLogic enables the generation of puzzles with
controllable and quantifiable complexity, facilitating a systematic study of
the scaling limits of models such as Llama, o1 models, and DeepSeek-R1. By
encompassing a broad range of search space complexities and diverse logical
constraints, ZebraLogic provides a structured environment to evaluate reasoning
under increasing difficulty.
Our results reveal a significant decline in accuracy as problem complexity
grows -- a phenomenon we term the curse of complexity. This limitation persists
even with larger models and increased inference-time computation, suggesting
inherent constraints in current LLM reasoning capabilities. Additionally, we
explore strategies to enhance logical reasoning, including Best-of-N sampling,
backtracking mechanisms, and self-verification prompts. Our findings offer
critical insights into the scalability of LLM reasoning, highlight fundamental
limitations, and outline potential directions for improvement.Summary
AI-Generated Summary