A Ilusão do Pensamento: Compreendendo os Pontos Fortes e Limitações dos Modelos de Raciocínio através da Perspectiva da Complexidade de Problemas
The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
June 7, 2025
Autores: Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio, Mehrdad Farajtabar
cs.AI
Resumo
As gerações recentes de modelos de linguagem introduziram os Large Reasoning Models (LRMs), que geram processos de pensamento detalhados antes de fornecer respostas. Embora esses modelos demonstrem desempenho aprimorado em benchmarks de raciocínio, suas capacidades fundamentais, propriedades de escalonamento e limitações ainda são insuficientemente compreendidas. As avaliações atuais concentram-se principalmente em benchmarks estabelecidos de matemática e programação, enfatizando a precisão da resposta final. No entanto, esse paradigma de avaliação frequentemente sofre com contaminação e não fornece insights sobre os traços de raciocínio. Neste trabalho, investigamos sistematicamente essas lacunas com o auxílio de ambientes de quebra-cabeças controláveis que permitem a manipulação precisa da complexidade, mantendo estruturas lógicas consistentes. Essa configuração possibilita a análise não apenas das respostas finais, mas também dos traços de raciocínio internos, oferecendo insights sobre como os LRMs pensam. Por meio de experimentos extensivos, mostramos que os LRMs enfrentam um colapso completo de precisão além de certas complexidades. Além disso, eles exibem um limite de escalonamento contraintuitivo: seu esforço de raciocínio aumenta com a complexidade do problema até certo ponto, depois diminui, apesar de ainda haver orçamento de tokens disponível. Ao comparar os LRMs com suas contrapartes LLM padrão sob o mesmo custo computacional de inferência, identificamos três regimes de desempenho: (1) tarefas de baixa complexidade, onde os modelos padrão superam os LRMs, (2) tarefas de média complexidade, onde os LRMs demonstram vantagem, e (3) tarefas de alta complexidade, onde ambos os modelos enfrentam colapso completo. Descobrimos que os LRMs têm limitações em cálculos exatos: eles falham em usar algoritmos explícitos e raciocinam de forma inconsistente em diferentes escalas. Também investigamos os traços de raciocínio com mais profundidade, estudando os padrões de soluções exploradas e analisando o comportamento computacional dos modelos, lançando luz sobre seus pontos fortes, limitações e levantando questões sobre suas capacidades de raciocínio.
English
Recent generations of language models have introduced Large Reasoning Models
(LRMs) that generate detailed thinking processes before providing answers.
While these models demonstrate improved performance on reasoning benchmarks,
their fundamental capabilities, scaling properties, and limitations remain
insufficiently understood. Current evaluations primarily focus on established
math and coding benchmarks, emphasizing final answer accuracy. However, this
evaluation paradigm often suffers from contamination and does not provide
insights into the reasoning traces. In this work, we systematically investigate
these gaps with the help of controllable puzzle environments that allow precise
manipulation of complexity while maintaining consistent logical structures.
This setup enables the analysis of not only final answers but also the internal
reasoning traces, offering insights into how LRMs think. Through extensive
experiments, we show that LRMs face a complete accuracy collapse beyond certain
complexities. Moreover, they exhibit a counterintuitive scaling limit: their
reasoning effort increases with problem complexity up to a point, then declines
despite having remaining token budget. By comparing LRMs with their standard
LLM counterparts under same inference compute, we identify three performance
regimes: (1) low-complexity tasks where standard models outperform LRMs, (2)
medium-complexity tasks where LRMs demonstrates advantage, and (3)
high-complexity tasks where both models face complete collapse. We found that
LRMs have limitations in exact computation: they fail to use explicit
algorithms and reason inconsistently across scales. We also investigate the
reasoning traces in more depth, studying the patterns of explored solutions and
analyzing the models' computational behavior, shedding light on their
strengths, limitations, and raising questions about their reasoning
capabilities.