Opmerking over De Illusie van Denken: Het Begrijpen van de Sterktes en Beperkingen van Redeneermodellen door de Lens van Probleemcomplexiteit
Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
June 10, 2025
Auteurs: C. Opus, A. Lawsen
cs.AI
Samenvatting
Shojaee et al. (2025) melden dat Large Reasoning Models (LRMs) een "nauwkeurigheidsinstorting" vertonen bij planningspuzzels die bepaalde complexiteitsdrempels overschrijden. Wij tonen aan dat hun bevindingen voornamelijk experimentele ontwerpbeperkingen weerspiegelen in plaats van fundamentele redeneerfouten. Onze analyse onthult drie kritieke problemen: (1) Tower of Hanoi-experimenten overschrijden systematisch de uitvoertokenlimieten van modellen op de gerapporteerde faalpunten, waarbij modellen deze beperkingen expliciet erkennen in hun uitvoer; (2) Het geautomatiseerde evaluatieraamwerk van de auteurs maakt geen onderscheid tussen redeneerfouten en praktische beperkingen, wat leidt tot een verkeerde classificatie van modelmogelijkheden; (3) Het meest zorgwekkend is dat hun River Crossing-benchmarks wiskundig onmogelijke instanties bevatten voor N > 5 vanwege onvoldoende bootcapaciteit, maar modellen worden beoordeeld als falend omdat ze deze onoplosbare problemen niet oplossen. Wanneer we deze experimentele artefacten controleren door het genereren van functies te vragen in plaats van uitgebreide beweginglijsten, geven voorlopige experimenten over meerdere modellen een hoge nauwkeurigheid aan bij Tower of Hanoi-instanties die eerder als volledige mislukkingen werden gerapporteerd. Deze bevindingen benadrukken het belang van zorgvuldig experimenteel ontwerp bij het evalueren van AI-redeneervaardigheden.
English
Shojaee et al. (2025) report that Large Reasoning Models (LRMs) exhibit
"accuracy collapse" on planning puzzles beyond certain complexity thresholds.
We demonstrate that their findings primarily reflect experimental design
limitations rather than fundamental reasoning failures. Our analysis reveals
three critical issues: (1) Tower of Hanoi experiments systematically exceed
model output token limits at reported failure points, with models explicitly
acknowledging these constraints in their outputs; (2) The authors' automated
evaluation framework fails to distinguish between reasoning failures and
practical constraints, leading to misclassification of model capabilities; (3)
Most concerningly, their River Crossing benchmarks include mathematically
impossible instances for N > 5 due to insufficient boat capacity, yet models
are scored as failures for not solving these unsolvable problems. When we
control for these experimental artifacts, by requesting generating functions
instead of exhaustive move lists, preliminary experiments across multiple
models indicate high accuracy on Tower of Hanoi instances previously reported
as complete failures. These findings highlight the importance of careful
experimental design when evaluating AI reasoning capabilities.