ChatPaper.aiChatPaper

A Ilusão do Pensamento: Compreendendo os Pontos Fortes e Limitações dos Modelos de Raciocínio através da Perspectiva da Complexidade de Problemas

The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

June 7, 2025
Autores: Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio, Mehrdad Farajtabar
cs.AI

Resumo

As gerações recentes de modelos de linguagem introduziram os Large Reasoning Models (LRMs), que geram processos de pensamento detalhados antes de fornecer respostas. Embora esses modelos demonstrem desempenho aprimorado em benchmarks de raciocínio, suas capacidades fundamentais, propriedades de escalonamento e limitações ainda são insuficientemente compreendidas. As avaliações atuais concentram-se principalmente em benchmarks estabelecidos de matemática e programação, enfatizando a precisão da resposta final. No entanto, esse paradigma de avaliação frequentemente sofre com contaminação e não fornece insights sobre os traços de raciocínio. Neste trabalho, investigamos sistematicamente essas lacunas com o auxílio de ambientes de quebra-cabeças controláveis que permitem a manipulação precisa da complexidade, mantendo estruturas lógicas consistentes. Essa configuração possibilita a análise não apenas das respostas finais, mas também dos traços de raciocínio internos, oferecendo insights sobre como os LRMs pensam. Por meio de experimentos extensivos, mostramos que os LRMs enfrentam um colapso completo de precisão além de certas complexidades. Além disso, eles exibem um limite de escalonamento contraintuitivo: seu esforço de raciocínio aumenta com a complexidade do problema até certo ponto, depois diminui, apesar de ainda haver orçamento de tokens disponível. Ao comparar os LRMs com suas contrapartes LLM padrão sob o mesmo custo computacional de inferência, identificamos três regimes de desempenho: (1) tarefas de baixa complexidade, onde os modelos padrão superam os LRMs, (2) tarefas de média complexidade, onde os LRMs demonstram vantagem, e (3) tarefas de alta complexidade, onde ambos os modelos enfrentam colapso completo. Descobrimos que os LRMs têm limitações em cálculos exatos: eles falham em usar algoritmos explícitos e raciocinam de forma inconsistente em diferentes escalas. Também investigamos os traços de raciocínio com mais profundidade, estudando os padrões de soluções exploradas e analisando o comportamento computacional dos modelos, lançando luz sobre seus pontos fortes, limitações e levantando questões sobre suas capacidades de raciocínio.
English
Recent generations of language models have introduced Large Reasoning Models (LRMs) that generate detailed thinking processes before providing answers. While these models demonstrate improved performance on reasoning benchmarks, their fundamental capabilities, scaling properties, and limitations remain insufficiently understood. Current evaluations primarily focus on established math and coding benchmarks, emphasizing final answer accuracy. However, this evaluation paradigm often suffers from contamination and does not provide insights into the reasoning traces. In this work, we systematically investigate these gaps with the help of controllable puzzle environments that allow precise manipulation of complexity while maintaining consistent logical structures. This setup enables the analysis of not only final answers but also the internal reasoning traces, offering insights into how LRMs think. Through extensive experiments, we show that LRMs face a complete accuracy collapse beyond certain complexities. Moreover, they exhibit a counterintuitive scaling limit: their reasoning effort increases with problem complexity up to a point, then declines despite having remaining token budget. By comparing LRMs with their standard LLM counterparts under same inference compute, we identify three performance regimes: (1) low-complexity tasks where standard models outperform LRMs, (2) medium-complexity tasks where LRMs demonstrates advantage, and (3) high-complexity tasks where both models face complete collapse. We found that LRMs have limitations in exact computation: they fail to use explicit algorithms and reason inconsistently across scales. We also investigate the reasoning traces in more depth, studying the patterns of explored solutions and analyzing the models' computational behavior, shedding light on their strengths, limitations, and raising questions about their reasoning capabilities.
PDF122June 10, 2025