ZebraLogic: Sobre os Limites de Escalonamento de LLMs para Raciocínio Lógico
ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning
February 3, 2025
Autores: Bill Yuchen Lin, Ronan Le Bras, Kyle Richardson, Ashish Sabharwal, Radha Poovendran, Peter Clark, Yejin Choi
cs.AI
Resumo
Investigamos as capacidades de raciocínio lógico dos grandes modelos de linguagem (LLMs) e sua escalabilidade em raciocínio não-monotônico complexo. Para isso, apresentamos o ZebraLogic, um framework abrangente de avaliação para avaliar o desempenho de raciocínio do LLM em quebra-cabeças de grade lógica derivados de problemas de satisfação de restrições (CSPs). O ZebraLogic permite a geração de quebra-cabeças com complexidade controlável e quantificável, facilitando um estudo sistemático dos limites de escalabilidade de modelos como Llama, o1 models e DeepSeek-R1. Ao abranger uma ampla gama de complexidades de espaço de busca e diversas restrições lógicas, o ZebraLogic fornece um ambiente estruturado para avaliar o raciocínio sob dificuldades crescentes.
Nossos resultados revelam uma queda significativa na precisão à medida que a complexidade do problema aumenta - um fenômeno que denominamos de maldição da complexidade. Essa limitação persiste mesmo com modelos maiores e aumento na computação em tempo de inferência, sugerindo limitações inerentes nas capacidades de raciocínio atuais dos LLMs. Além disso, exploramos estratégias para aprimorar o raciocínio lógico, incluindo a amostragem Best-of-N, mecanismos de retrocesso e prompts de autoverificação. Nossas descobertas oferecem insights críticos sobre a escalabilidade do raciocínio dos LLMs, destacam limitações fundamentais e delineiam direções potenciais para melhorias.
English
We investigate the logical reasoning capabilities of large language models
(LLMs) and their scalability in complex non-monotonic reasoning. To this end,
we introduce ZebraLogic, a comprehensive evaluation framework for assessing LLM
reasoning performance on logic grid puzzles derived from constraint
satisfaction problems (CSPs). ZebraLogic enables the generation of puzzles with
controllable and quantifiable complexity, facilitating a systematic study of
the scaling limits of models such as Llama, o1 models, and DeepSeek-R1. By
encompassing a broad range of search space complexities and diverse logical
constraints, ZebraLogic provides a structured environment to evaluate reasoning
under increasing difficulty.
Our results reveal a significant decline in accuracy as problem complexity
grows -- a phenomenon we term the curse of complexity. This limitation persists
even with larger models and increased inference-time computation, suggesting
inherent constraints in current LLM reasoning capabilities. Additionally, we
explore strategies to enhance logical reasoning, including Best-of-N sampling,
backtracking mechanisms, and self-verification prompts. Our findings offer
critical insights into the scalability of LLM reasoning, highlight fundamental
limitations, and outline potential directions for improvement.Summary
AI-Generated Summary