ChatPaper.aiChatPaper

La Ilusión del Pensamiento: Comprender las Fortalezas y Limitaciones de los Modelos de Razonamiento a través del Lente de la Complejidad de los Problemas

The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

June 7, 2025
Autores: Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio, Mehrdad Farajtabar
cs.AI

Resumen

Las generaciones recientes de modelos de lenguaje han introducido Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) que generan procesos de pensamiento detallados antes de proporcionar respuestas. Si bien estos modelos demuestran un mejor rendimiento en benchmarks de razonamiento, sus capacidades fundamentales, propiedades de escalabilidad y limitaciones siguen siendo insuficientemente comprendidas. Las evaluaciones actuales se centran principalmente en benchmarks establecidos de matemáticas y programación, enfatizando la precisión de las respuestas finales. Sin embargo, este paradigma de evaluación a menudo sufre de contaminación y no proporciona información sobre los trazos de razonamiento. En este trabajo, investigamos sistemáticamente estas brechas con la ayuda de entornos de rompecabezas controlables que permiten la manipulación precisa de la complejidad mientras mantienen estructuras lógicas consistentes. Esta configuración permite analizar no solo las respuestas finales, sino también los trazos de razonamiento internos, ofreciendo información sobre cómo piensan los LRMs. A través de experimentos extensos, mostramos que los LRMs enfrentan un colapso completo de precisión más allá de ciertas complejidades. Además, exhiben un límite de escalabilidad contraintuitivo: su esfuerzo de razonamiento aumenta con la complejidad del problema hasta cierto punto, luego disminuye a pesar de tener un presupuesto de tokens restante. Al comparar los LRMs con sus contrapartes estándar de modelos de lenguaje (LLMs) bajo el mismo cómputo de inferencia, identificamos tres regímenes de rendimiento: (1) tareas de baja complejidad donde los modelos estándar superan a los LRMs, (2) tareas de complejidad media donde los LRMs demuestran ventaja, y (3) tareas de alta complejidad donde ambos modelos enfrentan un colapso completo. Descubrimos que los LRMs tienen limitaciones en el cálculo exacto: no logran utilizar algoritmos explícitos y razonan de manera inconsistente a través de escalas. También investigamos los trazos de razonamiento en mayor profundidad, estudiando los patrones de soluciones exploradas y analizando el comportamiento computacional de los modelos, arrojando luz sobre sus fortalezas, limitaciones y planteando preguntas sobre sus capacidades de razonamiento.
English
Recent generations of language models have introduced Large Reasoning Models (LRMs) that generate detailed thinking processes before providing answers. While these models demonstrate improved performance on reasoning benchmarks, their fundamental capabilities, scaling properties, and limitations remain insufficiently understood. Current evaluations primarily focus on established math and coding benchmarks, emphasizing final answer accuracy. However, this evaluation paradigm often suffers from contamination and does not provide insights into the reasoning traces. In this work, we systematically investigate these gaps with the help of controllable puzzle environments that allow precise manipulation of complexity while maintaining consistent logical structures. This setup enables the analysis of not only final answers but also the internal reasoning traces, offering insights into how LRMs think. Through extensive experiments, we show that LRMs face a complete accuracy collapse beyond certain complexities. Moreover, they exhibit a counterintuitive scaling limit: their reasoning effort increases with problem complexity up to a point, then declines despite having remaining token budget. By comparing LRMs with their standard LLM counterparts under same inference compute, we identify three performance regimes: (1) low-complexity tasks where standard models outperform LRMs, (2) medium-complexity tasks where LRMs demonstrates advantage, and (3) high-complexity tasks where both models face complete collapse. We found that LRMs have limitations in exact computation: they fail to use explicit algorithms and reason inconsistently across scales. We also investigate the reasoning traces in more depth, studying the patterns of explored solutions and analyzing the models' computational behavior, shedding light on their strengths, limitations, and raising questions about their reasoning capabilities.
PDF112June 10, 2025