ChatPaper.aiChatPaper

Commentaire sur L'Illusion de la Pensée : Comprendre les Forces et les Limites des Modèles de Raisonnement à travers le Prisme de la Complexité des Problèmes

Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

June 10, 2025
Auteurs: C. Opus, A. Lawsen
cs.AI

Résumé

Shojaee et al. (2025) rapportent que les modèles de raisonnement à grande échelle (Large Reasoning Models, LRMs) présentent un "effondrement de la précision" sur des énigmes de planification au-delà de certains seuils de complexité. Nous démontrons que leurs résultats reflètent principalement des limitations dans la conception expérimentale plutôt que des échecs fondamentaux de raisonnement. Notre analyse révèle trois problèmes critiques : (1) Les expériences sur la Tour de Hanoï dépassent systématiquement les limites de tokens en sortie des modèles aux points d'échec rapportés, les modèles reconnaissant explicitement ces contraintes dans leurs sorties ; (2) Le cadre d'évaluation automatisé des auteurs ne parvient pas à distinguer les échecs de raisonnement des contraintes pratiques, conduisant à une mauvaise classification des capacités des modèles ; (3) Plus préoccupant, leurs benchmarks de traversée de rivière incluent des instances mathématiquement impossibles pour N > 5 en raison d'une capacité insuffisante du bateau, mais les modèles sont notés comme ayant échoué pour ne pas avoir résolu ces problèmes insolubles. Lorsque nous contrôlons ces artefacts expérimentaux, en demandant des fonctions génératrices plutôt que des listes exhaustives de mouvements, des expériences préliminaires sur plusieurs modèles indiquent une grande précision sur les instances de la Tour de Hanoï précédemment rapportées comme des échecs complets. Ces résultats soulignent l'importance d'une conception expérimentale rigoureuse lors de l'évaluation des capacités de raisonnement de l'IA.
English
Shojaee et al. (2025) report that Large Reasoning Models (LRMs) exhibit "accuracy collapse" on planning puzzles beyond certain complexity thresholds. We demonstrate that their findings primarily reflect experimental design limitations rather than fundamental reasoning failures. Our analysis reveals three critical issues: (1) Tower of Hanoi experiments systematically exceed model output token limits at reported failure points, with models explicitly acknowledging these constraints in their outputs; (2) The authors' automated evaluation framework fails to distinguish between reasoning failures and practical constraints, leading to misclassification of model capabilities; (3) Most concerningly, their River Crossing benchmarks include mathematically impossible instances for N > 5 due to insufficient boat capacity, yet models are scored as failures for not solving these unsolvable problems. When we control for these experimental artifacts, by requesting generating functions instead of exhaustive move lists, preliminary experiments across multiple models indicate high accuracy on Tower of Hanoi instances previously reported as complete failures. These findings highlight the importance of careful experimental design when evaluating AI reasoning capabilities.
PDF123June 13, 2025