ZebraLogic: Über die Skalierungsgrenzen von LLMs für logisches Schlussfolgern
ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning
February 3, 2025
Autoren: Bill Yuchen Lin, Ronan Le Bras, Kyle Richardson, Ashish Sabharwal, Radha Poovendran, Peter Clark, Yejin Choi
cs.AI
Zusammenfassung
Wir untersuchen die logischen Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) und ihre Skalierbarkeit bei komplexem nicht-monotonem Schlussfolgern. Zu diesem Zweck führen wir ZebraLogic ein, ein umfassendes Bewertungsframework zur Bewertung der Schlussfolgerungsleistung von LLMs bei Logikrätseln, die von Constraint Satisfaction Problems (CSPs) abgeleitet sind. ZebraLogic ermöglicht die Generierung von Rätseln mit kontrollierbarer und quantifizierbarer Komplexität, was eine systematische Untersuchung der Skalierungsgrenzen von Modellen wie Llama, o1-Modellen und DeepSeek-R1 erleichtert. Indem es eine breite Palette von Suchraumkomplexitäten und verschiedenen logischen Einschränkungen umfasst, bietet ZebraLogic eine strukturierte Umgebung zur Bewertung des Schlussfolgerns unter zunehmender Schwierigkeit.
Unsere Ergebnisse zeigen einen signifikanten Rückgang der Genauigkeit mit zunehmender Problemkomplexität - ein Phänomen, das wir als Fluch der Komplexität bezeichnen. Diese Einschränkung besteht auch bei größeren Modellen und erhöhter Inferenzzeitberechnung und legt nahe, dass es inhärente Einschränkungen in den aktuellen LLM-Schlussfolgerungsfähigkeiten gibt. Darüber hinaus erforschen wir Strategien zur Verbesserung des logischen Schlussfolgerns, einschließlich Best-of-N-Sampling, Backtracking-Mechanismen und Selbstüberprüfungsanfragen. Unsere Ergebnisse bieten wichtige Einblicke in die Skalierbarkeit des LLM-Schlussfolgerns, heben grundlegende Einschränkungen hervor und skizzieren potenzielle Verbesserungsrichtungen.
English
We investigate the logical reasoning capabilities of large language models
(LLMs) and their scalability in complex non-monotonic reasoning. To this end,
we introduce ZebraLogic, a comprehensive evaluation framework for assessing LLM
reasoning performance on logic grid puzzles derived from constraint
satisfaction problems (CSPs). ZebraLogic enables the generation of puzzles with
controllable and quantifiable complexity, facilitating a systematic study of
the scaling limits of models such as Llama, o1 models, and DeepSeek-R1. By
encompassing a broad range of search space complexities and diverse logical
constraints, ZebraLogic provides a structured environment to evaluate reasoning
under increasing difficulty.
Our results reveal a significant decline in accuracy as problem complexity
grows -- a phenomenon we term the curse of complexity. This limitation persists
even with larger models and increased inference-time computation, suggesting
inherent constraints in current LLM reasoning capabilities. Additionally, we
explore strategies to enhance logical reasoning, including Best-of-N sampling,
backtracking mechanisms, and self-verification prompts. Our findings offer
critical insights into the scalability of LLM reasoning, highlight fundamental
limitations, and outline potential directions for improvement.Summary
AI-Generated Summary