ChatPaper.aiChatPaper

Comentario sobre La Ilusión del Pensamiento: Comprendiendo las Fortalezas y Limitaciones de los Modelos de Razonamiento a través del Lente de la Complejidad de los Problemas

Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

June 10, 2025
Autores: C. Opus, A. Lawsen
cs.AI

Resumen

Shojaee et al. (2025) informan que los Modelos de Razonamiento a Gran Escala (LRMs) exhiben un "colapso de precisión" en rompecabezas de planificación más allá de ciertos umbrales de complejidad. Demostramos que sus hallazgos reflejan principalmente limitaciones en el diseño experimental en lugar de fallos fundamentales de razonamiento. Nuestro análisis revela tres problemas críticos: (1) Los experimentos de la Torre de Hanói superan sistemáticamente los límites de tokens de salida del modelo en los puntos de fallo reportados, con los modelos reconociendo explícitamente estas restricciones en sus salidas; (2) El marco de evaluación automatizado de los autores no logra distinguir entre fallos de razonamiento y restricciones prácticas, lo que lleva a una clasificación errónea de las capacidades del modelo; (3) Lo más preocupante es que sus pruebas de Cruce del Río incluyen instancias matemáticamente imposibles para N > 5 debido a la capacidad insuficiente del bote, pero los modelos son calificados como fallos por no resolver estos problemas irresolubles. Cuando controlamos estos artefactos experimentales, solicitando funciones generadoras en lugar de listas exhaustivas de movimientos, experimentos preliminares en múltiples modelos indican una alta precisión en instancias de la Torre de Hanói previamente reportadas como fallos completos. Estos hallazgos subrayan la importancia de un diseño experimental cuidadoso al evaluar las capacidades de razonamiento de la IA.
English
Shojaee et al. (2025) report that Large Reasoning Models (LRMs) exhibit "accuracy collapse" on planning puzzles beyond certain complexity thresholds. We demonstrate that their findings primarily reflect experimental design limitations rather than fundamental reasoning failures. Our analysis reveals three critical issues: (1) Tower of Hanoi experiments systematically exceed model output token limits at reported failure points, with models explicitly acknowledging these constraints in their outputs; (2) The authors' automated evaluation framework fails to distinguish between reasoning failures and practical constraints, leading to misclassification of model capabilities; (3) Most concerningly, their River Crossing benchmarks include mathematically impossible instances for N > 5 due to insufficient boat capacity, yet models are scored as failures for not solving these unsolvable problems. When we control for these experimental artifacts, by requesting generating functions instead of exhaustive move lists, preliminary experiments across multiple models indicate high accuracy on Tower of Hanoi instances previously reported as complete failures. These findings highlight the importance of careful experimental design when evaluating AI reasoning capabilities.
PDF123June 13, 2025