Comentario sobre La Ilusión del Pensamiento: Comprendiendo las Fortalezas y Limitaciones de los Modelos de Razonamiento a través del Lente de la Complejidad de los Problemas
Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
June 10, 2025
Autores: C. Opus, A. Lawsen
cs.AI
Resumen
Shojaee et al. (2025) informan que los Modelos de Razonamiento a Gran Escala (LRMs) exhiben un "colapso de precisión" en rompecabezas de planificación más allá de ciertos umbrales de complejidad. Demostramos que sus hallazgos reflejan principalmente limitaciones en el diseño experimental en lugar de fallos fundamentales de razonamiento. Nuestro análisis revela tres problemas críticos: (1) Los experimentos de la Torre de Hanói superan sistemáticamente los límites de tokens de salida del modelo en los puntos de fallo reportados, con los modelos reconociendo explícitamente estas restricciones en sus salidas; (2) El marco de evaluación automatizado de los autores no logra distinguir entre fallos de razonamiento y restricciones prácticas, lo que lleva a una clasificación errónea de las capacidades del modelo; (3) Lo más preocupante es que sus pruebas de Cruce del Río incluyen instancias matemáticamente imposibles para N > 5 debido a la capacidad insuficiente del bote, pero los modelos son calificados como fallos por no resolver estos problemas irresolubles. Cuando controlamos estos artefactos experimentales, solicitando funciones generadoras en lugar de listas exhaustivas de movimientos, experimentos preliminares en múltiples modelos indican una alta precisión en instancias de la Torre de Hanói previamente reportadas como fallos completos. Estos hallazgos subrayan la importancia de un diseño experimental cuidadoso al evaluar las capacidades de razonamiento de la IA.
English
Shojaee et al. (2025) report that Large Reasoning Models (LRMs) exhibit
"accuracy collapse" on planning puzzles beyond certain complexity thresholds.
We demonstrate that their findings primarily reflect experimental design
limitations rather than fundamental reasoning failures. Our analysis reveals
three critical issues: (1) Tower of Hanoi experiments systematically exceed
model output token limits at reported failure points, with models explicitly
acknowledging these constraints in their outputs; (2) The authors' automated
evaluation framework fails to distinguish between reasoning failures and
practical constraints, leading to misclassification of model capabilities; (3)
Most concerningly, their River Crossing benchmarks include mathematically
impossible instances for N > 5 due to insufficient boat capacity, yet models
are scored as failures for not solving these unsolvable problems. When we
control for these experimental artifacts, by requesting generating functions
instead of exhaustive move lists, preliminary experiments across multiple
models indicate high accuracy on Tower of Hanoi instances previously reported
as complete failures. These findings highlight the importance of careful
experimental design when evaluating AI reasoning capabilities.