ChatPaper.aiChatPaper

Kommentar zu „Die Illusion des Denkens: Stärken und Grenzen von Denkmodellen durch die Linse der Problemkomplexität verstehen“

Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

June 10, 2025
Autoren: C. Opus, A. Lawsen
cs.AI

Zusammenfassung

Shojaee et al. (2025) berichten, dass Large Reasoning Models (LRMs) bei Planungsrätseln jenseits bestimmter Komplexitätsschwellen einen „Genauigkeitsverfall“ zeigen. Wir zeigen, dass ihre Ergebnisse hauptsächlich auf Einschränkungen im experimentellen Design zurückzuführen sind und nicht auf grundlegende Schwächen im logischen Denken. Unsere Analyse deckt drei kritische Probleme auf: (1) Die Experimente zum Turm von Hanoi überschreiten systematisch die Token-Grenzen der Modellausgaben an den berichteten Fehlerpunkten, wobei die Modelle diese Einschränkungen explizit in ihren Ausgaben anerkennen; (2) Das automatisierte Bewertungsframework der Autoren unterscheidet nicht zwischen Denkfehlern und praktischen Einschränkungen, was zu einer Fehlklassifizierung der Modellfähigkeiten führt; (3) Am besorgniserregendsten ist, dass ihre River-Crossing-Benchmarks für N > 5 mathematisch unmögliche Instanzen aufgrund unzureichender Bootskapazität enthalten, die Modelle jedoch als gescheitert bewertet werden, weil sie diese unlösbaren Probleme nicht lösen. Wenn wir diese experimentellen Artefakte kontrollieren, indem wir anstelle von umfassenden Zuglisten erzeugende Funktionen anfordern, zeigen vorläufige Experimente mit mehreren Modellen eine hohe Genauigkeit bei Turm-von-Hanoi-Instanzen, die zuvor als vollständige Fehler gemeldet wurden. Diese Ergebnisse unterstreichen die Bedeutung eines sorgfältigen experimentellen Designs bei der Bewertung von KI-Fähigkeiten im logischen Denken.
English
Shojaee et al. (2025) report that Large Reasoning Models (LRMs) exhibit "accuracy collapse" on planning puzzles beyond certain complexity thresholds. We demonstrate that their findings primarily reflect experimental design limitations rather than fundamental reasoning failures. Our analysis reveals three critical issues: (1) Tower of Hanoi experiments systematically exceed model output token limits at reported failure points, with models explicitly acknowledging these constraints in their outputs; (2) The authors' automated evaluation framework fails to distinguish between reasoning failures and practical constraints, leading to misclassification of model capabilities; (3) Most concerningly, their River Crossing benchmarks include mathematically impossible instances for N > 5 due to insufficient boat capacity, yet models are scored as failures for not solving these unsolvable problems. When we control for these experimental artifacts, by requesting generating functions instead of exhaustive move lists, preliminary experiments across multiple models indicate high accuracy on Tower of Hanoi instances previously reported as complete failures. These findings highlight the importance of careful experimental design when evaluating AI reasoning capabilities.
PDF123June 13, 2025