ChatPaper.aiChatPaper

ZebraLogic : Sur les limites d'échelle des LLM pour le raisonnement logique

ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning

February 3, 2025
Auteurs: Bill Yuchen Lin, Ronan Le Bras, Kyle Richardson, Ashish Sabharwal, Radha Poovendran, Peter Clark, Yejin Choi
cs.AI

Résumé

Nous étudions les capacités de raisonnement logique des grands modèles de langage (LLM) et leur extensibilité dans le raisonnement non-monotone complexe. À cette fin, nous introduisons ZebraLogic, un cadre d'évaluation complet pour évaluer les performances de raisonnement des LLM sur des casse-têtes logiques dérivés de problèmes de satisfaction de contraintes (CSP). ZebraLogic permet la génération de casse-têtes avec une complexité contrôlable et quantifiable, facilitant une étude systématique des limites d'échelle de modèles tels que Llama, o1 modèles et DeepSeek-R1. En englobant une large gamme de complexités d'espace de recherche et de diverses contraintes logiques, ZebraLogic offre un environnement structuré pour évaluer le raisonnement face à une difficulté croissante. Nos résultats révèlent une baisse significative de la précision à mesure que la complexité du problème augmente - un phénomène que nous appelons la malédiction de la complexité. Cette limitation persiste même avec des modèles plus grands et une augmentation du temps de calcul d'inférence, suggérant des contraintes inhérentes dans les capacités de raisonnement actuelles des LLM. De plus, nous explorons des stratégies pour améliorer le raisonnement logique, notamment l'échantillonnage Best-of-N, les mécanismes de retour en arrière et les invites d'auto-vérification. Nos résultats offrent des perspectives critiques sur l'extensibilité du raisonnement des LLM, mettent en évidence des limitations fondamentales et décrivent des directions potentielles d'amélioration.
English
We investigate the logical reasoning capabilities of large language models (LLMs) and their scalability in complex non-monotonic reasoning. To this end, we introduce ZebraLogic, a comprehensive evaluation framework for assessing LLM reasoning performance on logic grid puzzles derived from constraint satisfaction problems (CSPs). ZebraLogic enables the generation of puzzles with controllable and quantifiable complexity, facilitating a systematic study of the scaling limits of models such as Llama, o1 models, and DeepSeek-R1. By encompassing a broad range of search space complexities and diverse logical constraints, ZebraLogic provides a structured environment to evaluate reasoning under increasing difficulty. Our results reveal a significant decline in accuracy as problem complexity grows -- a phenomenon we term the curse of complexity. This limitation persists even with larger models and increased inference-time computation, suggesting inherent constraints in current LLM reasoning capabilities. Additionally, we explore strategies to enhance logical reasoning, including Best-of-N sampling, backtracking mechanisms, and self-verification prompts. Our findings offer critical insights into the scalability of LLM reasoning, highlight fundamental limitations, and outline potential directions for improvement.

Summary

AI-Generated Summary

PDF172February 4, 2025