Commento su "L'illusione del pensiero: comprendere i punti di forza e i limiti dei modelli di ragionamento attraverso la lente della complessità dei problemi"
Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
June 10, 2025
Autori: C. Opus, A. Lawsen
cs.AI
Abstract
Shojaee et al. (2025) riportano che i Large Reasoning Models (LRM) mostrano un "crollo dell'accuratezza" nei puzzle di pianificazione oltre determinate soglie di complessità. Dimostriamo che i loro risultati riflettono principalmente limitazioni del disegno sperimentale piuttosto che fallimenti fondamentali del ragionamento. La nostra analisi rivela tre problemi critici: (1) Gli esperimenti sulla Torre di Hanoi superano sistematicamente i limiti di token di output del modello nei punti di fallimento segnalati, con i modelli che riconoscono esplicitamente questi vincoli nei loro output; (2) Il framework di valutazione automatizzato degli autori non riesce a distinguere tra fallimenti di ragionamento e vincoli pratici, portando a una errata classificazione delle capacità del modello; (3) Più preoccupante, i loro benchmark di River Crossing includono istanze matematicamente impossibili per N > 5 a causa di una capacità insufficiente della barca, eppure i modelli vengono valutati come fallimenti per non aver risolto questi problemi irrisolvibili. Quando controlliamo questi artefatti sperimentali, richiedendo funzioni generatrici invece di elenchi esaustivi di mosse, esperimenti preliminari su più modelli indicano un'elevata accuratezza nelle istanze della Torre di Hanoi precedentemente riportate come fallimenti completi. Questi risultati evidenziano l'importanza di un attento disegno sperimentale nella valutazione delle capacità di ragionamento dell'IA.
English
Shojaee et al. (2025) report that Large Reasoning Models (LRMs) exhibit
"accuracy collapse" on planning puzzles beyond certain complexity thresholds.
We demonstrate that their findings primarily reflect experimental design
limitations rather than fundamental reasoning failures. Our analysis reveals
three critical issues: (1) Tower of Hanoi experiments systematically exceed
model output token limits at reported failure points, with models explicitly
acknowledging these constraints in their outputs; (2) The authors' automated
evaluation framework fails to distinguish between reasoning failures and
practical constraints, leading to misclassification of model capabilities; (3)
Most concerningly, their River Crossing benchmarks include mathematically
impossible instances for N > 5 due to insufficient boat capacity, yet models
are scored as failures for not solving these unsolvable problems. When we
control for these experimental artifacts, by requesting generating functions
instead of exhaustive move lists, preliminary experiments across multiple
models indicate high accuracy on Tower of Hanoi instances previously reported
as complete failures. These findings highlight the importance of careful
experimental design when evaluating AI reasoning capabilities.