ChatPaper.aiChatPaper

ZebraLogic: Sui Limiti di Scalabilità dei LLM per il Ragionamento Logico

ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning

February 3, 2025
Autori: Bill Yuchen Lin, Ronan Le Bras, Kyle Richardson, Ashish Sabharwal, Radha Poovendran, Peter Clark, Yejin Choi
cs.AI

Abstract

Indaghiamo le capacità di ragionamento logico dei grandi modelli linguistici (LLM) e la loro scalabilità nel ragionamento non monotonico complesso. A tal fine, introduciamo ZebraLogic, un quadro di valutazione completo per valutare le prestazioni di ragionamento LLM su enigmi logici derivati da problemi di soddisfacimento di vincoli (CSP). ZebraLogic consente la generazione di enigmi con complessità controllabile e quantificabile, facilitando uno studio sistematico dei limiti di scalabilità di modelli come Llama, modelli o1 e DeepSeek-R1. Coprendo una vasta gamma di complessità dello spazio di ricerca e diversi vincoli logici, ZebraLogic fornisce un ambiente strutturato per valutare il ragionamento in condizioni di crescente difficoltà. I nostri risultati rivelano un significativo calo di precisione all'aumentare della complessità del problema -- un fenomeno che definiamo la maledizione della complessità. Questa limitazione persiste anche con modelli più grandi e un aumento del calcolo del tempo di inferenza, suggerendo vincoli intrinseci nelle attuali capacità di ragionamento LLM. Inoltre, esploriamo strategie per potenziare il ragionamento logico, tra cui campionamento Best-of-N, meccanismi di backtracking e promemoria di auto-verifica. Le nostre scoperte offrono importanti intuizioni sulla scalabilità del ragionamento LLM, evidenziano limitazioni fondamentali e delineano possibili direzioni per il miglioramento.
English
We investigate the logical reasoning capabilities of large language models (LLMs) and their scalability in complex non-monotonic reasoning. To this end, we introduce ZebraLogic, a comprehensive evaluation framework for assessing LLM reasoning performance on logic grid puzzles derived from constraint satisfaction problems (CSPs). ZebraLogic enables the generation of puzzles with controllable and quantifiable complexity, facilitating a systematic study of the scaling limits of models such as Llama, o1 models, and DeepSeek-R1. By encompassing a broad range of search space complexities and diverse logical constraints, ZebraLogic provides a structured environment to evaluate reasoning under increasing difficulty. Our results reveal a significant decline in accuracy as problem complexity grows -- a phenomenon we term the curse of complexity. This limitation persists even with larger models and increased inference-time computation, suggesting inherent constraints in current LLM reasoning capabilities. Additionally, we explore strategies to enhance logical reasoning, including Best-of-N sampling, backtracking mechanisms, and self-verification prompts. Our findings offer critical insights into the scalability of LLM reasoning, highlight fundamental limitations, and outline potential directions for improvement.

Summary

AI-Generated Summary

PDF172February 4, 2025