ChatPaper.aiChatPaper

ZebraLogic: Sobre os Limites de Escalonamento de LLMs para Raciocínio Lógico

ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning

February 3, 2025
Autores: Bill Yuchen Lin, Ronan Le Bras, Kyle Richardson, Ashish Sabharwal, Radha Poovendran, Peter Clark, Yejin Choi
cs.AI

Resumo

Investigamos as capacidades de raciocínio lógico dos grandes modelos de linguagem (LLMs) e sua escalabilidade em raciocínio não-monotônico complexo. Para isso, apresentamos o ZebraLogic, um framework abrangente de avaliação para avaliar o desempenho de raciocínio do LLM em quebra-cabeças de grade lógica derivados de problemas de satisfação de restrições (CSPs). O ZebraLogic permite a geração de quebra-cabeças com complexidade controlável e quantificável, facilitando um estudo sistemático dos limites de escalabilidade de modelos como Llama, o1 models e DeepSeek-R1. Ao abranger uma ampla gama de complexidades de espaço de busca e diversas restrições lógicas, o ZebraLogic fornece um ambiente estruturado para avaliar o raciocínio sob dificuldades crescentes. Nossos resultados revelam uma queda significativa na precisão à medida que a complexidade do problema aumenta - um fenômeno que denominamos de maldição da complexidade. Essa limitação persiste mesmo com modelos maiores e aumento na computação em tempo de inferência, sugerindo limitações inerentes nas capacidades de raciocínio atuais dos LLMs. Além disso, exploramos estratégias para aprimorar o raciocínio lógico, incluindo a amostragem Best-of-N, mecanismos de retrocesso e prompts de autoverificação. Nossas descobertas oferecem insights críticos sobre a escalabilidade do raciocínio dos LLMs, destacam limitações fundamentais e delineiam direções potenciais para melhorias.
English
We investigate the logical reasoning capabilities of large language models (LLMs) and their scalability in complex non-monotonic reasoning. To this end, we introduce ZebraLogic, a comprehensive evaluation framework for assessing LLM reasoning performance on logic grid puzzles derived from constraint satisfaction problems (CSPs). ZebraLogic enables the generation of puzzles with controllable and quantifiable complexity, facilitating a systematic study of the scaling limits of models such as Llama, o1 models, and DeepSeek-R1. By encompassing a broad range of search space complexities and diverse logical constraints, ZebraLogic provides a structured environment to evaluate reasoning under increasing difficulty. Our results reveal a significant decline in accuracy as problem complexity grows -- a phenomenon we term the curse of complexity. This limitation persists even with larger models and increased inference-time computation, suggesting inherent constraints in current LLM reasoning capabilities. Additionally, we explore strategies to enhance logical reasoning, including Best-of-N sampling, backtracking mechanisms, and self-verification prompts. Our findings offer critical insights into the scalability of LLM reasoning, highlight fundamental limitations, and outline potential directions for improvement.

Summary

AI-Generated Summary

PDF172February 4, 2025