Opmerking over De Illusie van Denken: Het Begrijpen van de Sterktes en Beperkingen van Redeneermodellen door de Lens van Probleemcomplexiteit

Samenvatting

Shojaee et al. (2025) melden dat Large Reasoning Models (LRMs) een "nauwkeurigheidsinstorting" vertonen bij planningspuzzels die bepaalde complexiteitsdrempels overschrijden. Wij tonen aan dat hun bevindingen voornamelijk experimentele ontwerpbeperkingen weerspiegelen in plaats van fundamentele redeneerfouten. Onze analyse onthult drie kritieke problemen: (1) Tower of Hanoi-experimenten overschrijden systematisch de uitvoertokenlimieten van modellen op de gerapporteerde faalpunten, waarbij modellen deze beperkingen expliciet erkennen in hun uitvoer; (2) Het geautomatiseerde evaluatieraamwerk van de auteurs maakt geen onderscheid tussen redeneerfouten en praktische beperkingen, wat leidt tot een verkeerde classificatie van modelmogelijkheden; (3) Het meest zorgwekkend is dat hun River Crossing-benchmarks wiskundig onmogelijke instanties bevatten voor N > 5 vanwege onvoldoende bootcapaciteit, maar modellen worden beoordeeld als falend omdat ze deze onoplosbare problemen niet oplossen. Wanneer we deze experimentele artefacten controleren door het genereren van functies te vragen in plaats van uitgebreide beweginglijsten, geven voorlopige experimenten over meerdere modellen een hoge nauwkeurigheid aan bij Tower of Hanoi-instanties die eerder als volledige mislukkingen werden gerapporteerd. Deze bevindingen benadrukken het belang van zorgvuldig experimenteel ontwerp bij het evalueren van AI-redeneervaardigheden.

English

Shojaee et al. (2025) report that Large Reasoning Models (LRMs) exhibit "accuracy collapse" on planning puzzles beyond certain complexity thresholds. We demonstrate that their findings primarily reflect experimental design limitations rather than fundamental reasoning failures. Our analysis reveals three critical issues: (1) Tower of Hanoi experiments systematically exceed model output token limits at reported failure points, with models explicitly acknowledging these constraints in their outputs; (2) The authors' automated evaluation framework fails to distinguish between reasoning failures and practical constraints, leading to misclassification of model capabilities; (3) Most concerningly, their River Crossing benchmarks include mathematically impossible instances for N > 5 due to insufficient boat capacity, yet models are scored as failures for not solving these unsolvable problems. When we control for these experimental artifacts, by requesting generating functions instead of exhaustive move lists, preliminary experiments across multiple models indicate high accuracy on Tower of Hanoi instances previously reported as complete failures. These findings highlight the importance of careful experimental design when evaluating AI reasoning capabilities.

Opmerking over De Illusie van Denken: Het Begrijpen van de Sterktes en Beperkingen van Redeneermodellen door de Lens van Probleemcomplexiteit

Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

Samenvatting

Support