Commento su "L'illusione del pensiero: comprendere i punti di forza e i limiti dei modelli di ragionamento attraverso la lente della complessità dei problemi"

Abstract

Shojaee et al. (2025) riportano che i Large Reasoning Models (LRM) mostrano un "crollo dell'accuratezza" nei puzzle di pianificazione oltre determinate soglie di complessità. Dimostriamo che i loro risultati riflettono principalmente limitazioni del disegno sperimentale piuttosto che fallimenti fondamentali del ragionamento. La nostra analisi rivela tre problemi critici: (1) Gli esperimenti sulla Torre di Hanoi superano sistematicamente i limiti di token di output del modello nei punti di fallimento segnalati, con i modelli che riconoscono esplicitamente questi vincoli nei loro output; (2) Il framework di valutazione automatizzato degli autori non riesce a distinguere tra fallimenti di ragionamento e vincoli pratici, portando a una errata classificazione delle capacità del modello; (3) Più preoccupante, i loro benchmark di River Crossing includono istanze matematicamente impossibili per N > 5 a causa di una capacità insufficiente della barca, eppure i modelli vengono valutati come fallimenti per non aver risolto questi problemi irrisolvibili. Quando controlliamo questi artefatti sperimentali, richiedendo funzioni generatrici invece di elenchi esaustivi di mosse, esperimenti preliminari su più modelli indicano un'elevata accuratezza nelle istanze della Torre di Hanoi precedentemente riportate come fallimenti completi. Questi risultati evidenziano l'importanza di un attento disegno sperimentale nella valutazione delle capacità di ragionamento dell'IA.

English

Shojaee et al. (2025) report that Large Reasoning Models (LRMs) exhibit "accuracy collapse" on planning puzzles beyond certain complexity thresholds. We demonstrate that their findings primarily reflect experimental design limitations rather than fundamental reasoning failures. Our analysis reveals three critical issues: (1) Tower of Hanoi experiments systematically exceed model output token limits at reported failure points, with models explicitly acknowledging these constraints in their outputs; (2) The authors' automated evaluation framework fails to distinguish between reasoning failures and practical constraints, leading to misclassification of model capabilities; (3) Most concerningly, their River Crossing benchmarks include mathematically impossible instances for N > 5 due to insufficient boat capacity, yet models are scored as failures for not solving these unsolvable problems. When we control for these experimental artifacts, by requesting generating functions instead of exhaustive move lists, preliminary experiments across multiple models indicate high accuracy on Tower of Hanoi instances previously reported as complete failures. These findings highlight the importance of careful experimental design when evaluating AI reasoning capabilities.

Commento su "L'illusione del pensiero: comprendere i punti di forza e i limiti dei modelli di ragionamento attraverso la lente della complessità dei problemi"

Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

Abstract

Support