O Perigo da Superanálise: Examinando o Dilema Raciocínio-Ação em Tarefas Agentes
The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks
February 12, 2025
Autores: Alejandro Cuadron, Dacheng Li, Wenjie Ma, Xingyao Wang, Yichuan Wang, Siyuan Zhuang, Shu Liu, Luis Gaspar Schroeder, Tian Xia, Huanzhi Mao, Nicholas Thumiger, Aditya Desai, Ion Stoica, Ana Klimovic, Graham Neubig, Joseph E. Gonzalez
cs.AI
Resumo
Os Modelos de Raciocínio Amplo (LRMs) representam um avanço nas capacidades de resolução de problemas de IA, mas sua eficácia em ambientes interativos pode ser limitada. Este artigo introduz e analisa o pensamento excessivo em LRMs, um fenômeno no qual os modelos favorecem cadeias de raciocínio interno prolongadas em detrimento da interação ambiental. Através de experimentos em tarefas de engenharia de software usando o SWE Bench Verified, observamos três padrões recorrentes: Paralisia de Análise, Ações Rebeldes e Desengajamento Prematuro. Propomos um framework para estudar esses comportamentos, que se correlaciona com avaliações de especialistas humanos, e analisamos 4018 trajetórias. Observamos que pontuações mais altas de pensamento excessivo se correlacionam com desempenho reduzido, com modelos de raciocínio exibindo tendências mais fortes ao pensamento excessivo em comparação com modelos não racionais. Nossa análise revela que esforços simples para mitigar o pensamento excessivo em ambientes agentes, como selecionar a solução com a menor pontuação de pensamento excessivo, podem melhorar o desempenho do modelo em quase 30%, reduzindo os custos computacionais em 43%. Esses resultados sugerem que mitigar o pensamento excessivo tem fortes implicações práticas. Sugerimos que, ao alavancar as capacidades nativas de chamada de função e o aprendizado por reforço seletivo, as tendências ao pensamento excessivo podem ser mitigadas. Também disponibilizamos nosso framework de avaliação e conjunto de dados em código aberto para facilitar a pesquisa nessa direção em https://github.com/AlexCuadron/Overthinking.
English
Large Reasoning Models (LRMs) represent a breakthrough in AI problem-solving
capabilities, but their effectiveness in interactive environments can be
limited. This paper introduces and analyzes overthinking in LRMs. A phenomenon
where models favor extended internal reasoning chains over environmental
interaction. Through experiments on software engineering tasks using SWE Bench
Verified, we observe three recurring patterns: Analysis Paralysis, Rogue
Actions, and Premature Disengagement. We propose a framework to study these
behaviors, which correlates with human expert assessments, and analyze 4018
trajectories. We observe that higher overthinking scores correlate with
decreased performance, with reasoning models exhibiting stronger tendencies
toward overthinking compared to non-reasoning models. Our analysis reveals that
simple efforts to mitigate overthinking in agentic environments, such as
selecting the solution with the lower overthinking score, can improve model
performance by almost 30% while reducing computational costs by 43%. These
results suggest that mitigating overthinking has strong practical implications.
We suggest that by leveraging native function-calling capabilities and
selective reinforcement learning overthinking tendencies could be mitigated. We
also open-source our evaluation framework and dataset to facilitate research in
this direction at https://github.com/AlexCuadron/Overthinking.Summary
AI-Generated Summary