ゼブラロジック:論理推論のためのLLMのスケーリング限界
ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning
February 3, 2025
著者: Bill Yuchen Lin, Ronan Le Bras, Kyle Richardson, Ashish Sabharwal, Radha Poovendran, Peter Clark, Yejin Choi
cs.AI
要旨
大規模言語モデル(LLM)の論理推論能力と複雑な非単調推論におけるスケーラビリティを調査します。このために、制約充足問題(CSPs)から導かれた論理グリッドパズルにおけるLLMの推論パフォーマンスを評価する包括的な評価フレームワークであるZebraLogicを導入します。ZebraLogicは、制御可能で数量化可能な複雑さを持つパズルの生成を可能にし、Llama、o1モデル、DeepSeek-R1などのモデルのスケーリング限界の系統的な研究を促進します。幅広い探索空間の複雑さと多様な論理制約を包括することで、ZebraLogicは、増加する難易度の下での推論の評価を行うための構造化された環境を提供します。
我々の結果は、問題の複雑さが増すにつれて精度が著しく低下することを明らかにしました -- この現象を複雑性の呪いと呼んでいます。この制限は、より大きなモデルや推論時間の増加にもかかわらず続き、現在のLLMの推論能力に固有の制約が示唆されます。さらに、Best-of-Nサンプリング、バックトラッキングメカニズム、自己検証プロンプトなどの論理推論を強化する戦略を探求します。我々の調査結果は、LLMの推論のスケーラビリティに関する重要な洞察を提供し、基本的な制約を強調し、改善のための潜在的な方向を概説しています。
English
We investigate the logical reasoning capabilities of large language models
(LLMs) and their scalability in complex non-monotonic reasoning. To this end,
we introduce ZebraLogic, a comprehensive evaluation framework for assessing LLM
reasoning performance on logic grid puzzles derived from constraint
satisfaction problems (CSPs). ZebraLogic enables the generation of puzzles with
controllable and quantifiable complexity, facilitating a systematic study of
the scaling limits of models such as Llama, o1 models, and DeepSeek-R1. By
encompassing a broad range of search space complexities and diverse logical
constraints, ZebraLogic provides a structured environment to evaluate reasoning
under increasing difficulty.
Our results reveal a significant decline in accuracy as problem complexity
grows -- a phenomenon we term the curse of complexity. This limitation persists
even with larger models and increased inference-time computation, suggesting
inherent constraints in current LLM reasoning capabilities. Additionally, we
explore strategies to enhance logical reasoning, including Best-of-N sampling,
backtracking mechanisms, and self-verification prompts. Our findings offer
critical insights into the scalability of LLM reasoning, highlight fundamental
limitations, and outline potential directions for improvement.Summary
AI-Generated Summary