ZebraLogic: Over de schaalbeperkingen van LLM's voor logische redenering.
ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning
February 3, 2025
Auteurs: Bill Yuchen Lin, Ronan Le Bras, Kyle Richardson, Ashish Sabharwal, Radha Poovendran, Peter Clark, Yejin Choi
cs.AI
Samenvatting
We onderzoeken de logische redeneervaardigheden van grote taalmodellen (LLM's) en hun schaalbaarheid in complexe niet-monotone redenering. Hiertoe introduceren we ZebraLogic, een uitgebreid evaluatiekader om de redeneerprestaties van LLM's te beoordelen op logische roosterpuzzels afgeleid van constraint satisfaction problems (CSP's). ZebraLogic maakt het genereren van puzzels met controleerbare en kwantificeerbare complexiteit mogelijk, waardoor een systematische studie van de schaalbaarheidslimieten van modellen zoals Llama, o1-modellen en DeepSeek-R1 wordt vergemakkelijkt. Door een breed scala aan zoekruimtecomplexiteiten en diverse logische beperkingen te omvatten, biedt ZebraLogic een gestructureerde omgeving om redeneren onder toenemende moeilijkheidsgraad te evalueren.
Onze resultaten tonen een aanzienlijke afname in nauwkeurigheid naarmate de probleemcomplexiteit toeneemt - een fenomeen dat we de vloek van complexiteit noemen. Deze beperking blijft zelfs bestaan bij grotere modellen en toegenomen inferentietijdcomputatie, wat wijst op inherente beperkingen in de huidige redeneervaardigheden van LLM's. Daarnaast verkennen we strategieën om logisch redeneren te verbeteren, waaronder Best-of-N-sampling, backtrackingmechanismen en zelfverificatieprompts. Onze bevindingen bieden kritische inzichten in de schaalbaarheid van LLM-redeneren, benadrukken fundamentele beperkingen en schetsen mogelijke richtingen voor verbetering.
English
We investigate the logical reasoning capabilities of large language models
(LLMs) and their scalability in complex non-monotonic reasoning. To this end,
we introduce ZebraLogic, a comprehensive evaluation framework for assessing LLM
reasoning performance on logic grid puzzles derived from constraint
satisfaction problems (CSPs). ZebraLogic enables the generation of puzzles with
controllable and quantifiable complexity, facilitating a systematic study of
the scaling limits of models such as Llama, o1 models, and DeepSeek-R1. By
encompassing a broad range of search space complexities and diverse logical
constraints, ZebraLogic provides a structured environment to evaluate reasoning
under increasing difficulty.
Our results reveal a significant decline in accuracy as problem complexity
grows -- a phenomenon we term the curse of complexity. This limitation persists
even with larger models and increased inference-time computation, suggesting
inherent constraints in current LLM reasoning capabilities. Additionally, we
explore strategies to enhance logical reasoning, including Best-of-N sampling,
backtracking mechanisms, and self-verification prompts. Our findings offer
critical insights into the scalability of LLM reasoning, highlight fundamental
limitations, and outline potential directions for improvement.Summary
AI-Generated Summary