ChatPaper.aiChatPaper

ZebraLogic: Over de schaalbeperkingen van LLM's voor logische redenering.

ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning

February 3, 2025
Auteurs: Bill Yuchen Lin, Ronan Le Bras, Kyle Richardson, Ashish Sabharwal, Radha Poovendran, Peter Clark, Yejin Choi
cs.AI

Samenvatting

We onderzoeken de logische redeneervaardigheden van grote taalmodellen (LLM's) en hun schaalbaarheid in complexe niet-monotone redenering. Hiertoe introduceren we ZebraLogic, een uitgebreid evaluatiekader om de redeneerprestaties van LLM's te beoordelen op logische roosterpuzzels afgeleid van constraint satisfaction problems (CSP's). ZebraLogic maakt het genereren van puzzels met controleerbare en kwantificeerbare complexiteit mogelijk, waardoor een systematische studie van de schaalbaarheidslimieten van modellen zoals Llama, o1-modellen en DeepSeek-R1 wordt vergemakkelijkt. Door een breed scala aan zoekruimtecomplexiteiten en diverse logische beperkingen te omvatten, biedt ZebraLogic een gestructureerde omgeving om redeneren onder toenemende moeilijkheidsgraad te evalueren. Onze resultaten tonen een aanzienlijke afname in nauwkeurigheid naarmate de probleemcomplexiteit toeneemt - een fenomeen dat we de vloek van complexiteit noemen. Deze beperking blijft zelfs bestaan bij grotere modellen en toegenomen inferentietijdcomputatie, wat wijst op inherente beperkingen in de huidige redeneervaardigheden van LLM's. Daarnaast verkennen we strategieën om logisch redeneren te verbeteren, waaronder Best-of-N-sampling, backtrackingmechanismen en zelfverificatieprompts. Onze bevindingen bieden kritische inzichten in de schaalbaarheid van LLM-redeneren, benadrukken fundamentele beperkingen en schetsen mogelijke richtingen voor verbetering.
English
We investigate the logical reasoning capabilities of large language models (LLMs) and their scalability in complex non-monotonic reasoning. To this end, we introduce ZebraLogic, a comprehensive evaluation framework for assessing LLM reasoning performance on logic grid puzzles derived from constraint satisfaction problems (CSPs). ZebraLogic enables the generation of puzzles with controllable and quantifiable complexity, facilitating a systematic study of the scaling limits of models such as Llama, o1 models, and DeepSeek-R1. By encompassing a broad range of search space complexities and diverse logical constraints, ZebraLogic provides a structured environment to evaluate reasoning under increasing difficulty. Our results reveal a significant decline in accuracy as problem complexity grows -- a phenomenon we term the curse of complexity. This limitation persists even with larger models and increased inference-time computation, suggesting inherent constraints in current LLM reasoning capabilities. Additionally, we explore strategies to enhance logical reasoning, including Best-of-N sampling, backtracking mechanisms, and self-verification prompts. Our findings offer critical insights into the scalability of LLM reasoning, highlight fundamental limitations, and outline potential directions for improvement.

Summary

AI-Generated Summary

PDF172February 4, 2025