Kommentar zu „Die Illusion des Denkens: Stärken und Grenzen von Denkmodellen durch die Linse der Problemkomplexität verstehen“
Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
June 10, 2025
Autoren: C. Opus, A. Lawsen
cs.AI
Zusammenfassung
Shojaee et al. (2025) berichten, dass Large Reasoning Models (LRMs) bei Planungsrätseln jenseits bestimmter Komplexitätsschwellen einen „Genauigkeitsverfall“ zeigen. Wir zeigen, dass ihre Ergebnisse hauptsächlich auf Einschränkungen im experimentellen Design zurückzuführen sind und nicht auf grundlegende Schwächen im logischen Denken. Unsere Analyse deckt drei kritische Probleme auf: (1) Die Experimente zum Turm von Hanoi überschreiten systematisch die Token-Grenzen der Modellausgaben an den berichteten Fehlerpunkten, wobei die Modelle diese Einschränkungen explizit in ihren Ausgaben anerkennen; (2) Das automatisierte Bewertungsframework der Autoren unterscheidet nicht zwischen Denkfehlern und praktischen Einschränkungen, was zu einer Fehlklassifizierung der Modellfähigkeiten führt; (3) Am besorgniserregendsten ist, dass ihre River-Crossing-Benchmarks für N > 5 mathematisch unmögliche Instanzen aufgrund unzureichender Bootskapazität enthalten, die Modelle jedoch als gescheitert bewertet werden, weil sie diese unlösbaren Probleme nicht lösen. Wenn wir diese experimentellen Artefakte kontrollieren, indem wir anstelle von umfassenden Zuglisten erzeugende Funktionen anfordern, zeigen vorläufige Experimente mit mehreren Modellen eine hohe Genauigkeit bei Turm-von-Hanoi-Instanzen, die zuvor als vollständige Fehler gemeldet wurden. Diese Ergebnisse unterstreichen die Bedeutung eines sorgfältigen experimentellen Designs bei der Bewertung von KI-Fähigkeiten im logischen Denken.
English
Shojaee et al. (2025) report that Large Reasoning Models (LRMs) exhibit
"accuracy collapse" on planning puzzles beyond certain complexity thresholds.
We demonstrate that their findings primarily reflect experimental design
limitations rather than fundamental reasoning failures. Our analysis reveals
three critical issues: (1) Tower of Hanoi experiments systematically exceed
model output token limits at reported failure points, with models explicitly
acknowledging these constraints in their outputs; (2) The authors' automated
evaluation framework fails to distinguish between reasoning failures and
practical constraints, leading to misclassification of model capabilities; (3)
Most concerningly, their River Crossing benchmarks include mathematically
impossible instances for N > 5 due to insufficient boat capacity, yet models
are scored as failures for not solving these unsolvable problems. When we
control for these experimental artifacts, by requesting generating functions
instead of exhaustive move lists, preliminary experiments across multiple
models indicate high accuracy on Tower of Hanoi instances previously reported
as complete failures. These findings highlight the importance of careful
experimental design when evaluating AI reasoning capabilities.