Comentário sobre A Ilusão do Pensamento: Compreendendo os Pontos Fortes e Limitações dos Modelos de Raciocínio através da Lente da Complexidade dos Problemas
Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
June 10, 2025
Autores: C. Opus, A. Lawsen
cs.AI
Resumo
Shojaee et al. (2025) relatam que os Modelos de Raciocínio de Grande Escala (LRMs) exibem "colapso de precisão" em quebra-cabeças de planejamento além de certos limiares de complexidade. Demonstramos que suas descobertas refletem principalmente limitações no design experimental, em vez de falhas fundamentais de raciocínio. Nossa análise revela três questões críticas: (1) Os experimentos com a Torre de Hanói sistematicamente excedem os limites de tokens de saída dos modelos nos pontos de falha relatados, com os modelos explicitamente reconhecendo essas restrições em suas saídas; (2) O framework de avaliação automatizada dos autores não consegue distinguir entre falhas de raciocínio e restrições práticas, levando à má classificação das capacidades dos modelos; (3) Mais preocupantemente, seus benchmarks de Travessia de Rio incluem instâncias matematicamente impossíveis para N > 5 devido à capacidade insuficiente do barco, mas os modelos são pontuados como falhas por não resolverem esses problemas insolúveis. Quando controlamos esses artefatos experimentais, solicitando funções geradoras em vez de listas exaustivas de movimentos, experimentos preliminares em vários modelos indicam alta precisão em instâncias da Torre de Hanói anteriormente relatadas como falhas completas. Essas descobertas destacam a importância de um design experimental cuidadoso ao avaliar as capacidades de raciocínio da IA.
English
Shojaee et al. (2025) report that Large Reasoning Models (LRMs) exhibit
"accuracy collapse" on planning puzzles beyond certain complexity thresholds.
We demonstrate that their findings primarily reflect experimental design
limitations rather than fundamental reasoning failures. Our analysis reveals
three critical issues: (1) Tower of Hanoi experiments systematically exceed
model output token limits at reported failure points, with models explicitly
acknowledging these constraints in their outputs; (2) The authors' automated
evaluation framework fails to distinguish between reasoning failures and
practical constraints, leading to misclassification of model capabilities; (3)
Most concerningly, their River Crossing benchmarks include mathematically
impossible instances for N > 5 due to insufficient boat capacity, yet models
are scored as failures for not solving these unsolvable problems. When we
control for these experimental artifacts, by requesting generating functions
instead of exhaustive move lists, preliminary experiments across multiple
models indicate high accuracy on Tower of Hanoi instances previously reported
as complete failures. These findings highlight the importance of careful
experimental design when evaluating AI reasoning capabilities.