過度な考え込みの危険性:エージェンティックタスクにおける推論と行動のジレンマの検討
The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks
February 12, 2025
著者: Alejandro Cuadron, Dacheng Li, Wenjie Ma, Xingyao Wang, Yichuan Wang, Siyuan Zhuang, Shu Liu, Luis Gaspar Schroeder, Tian Xia, Huanzhi Mao, Nicholas Thumiger, Aditya Desai, Ion Stoica, Ana Klimovic, Graham Neubig, Joseph E. Gonzalez
cs.AI
要旨
大規模推論モデル(LRMs)は、AI問題解決能力における画期的な進歩を表していますが、対話環境における効果は限定されることがあります。本論文では、LRMsにおける過剰思考(overthinking)を紹介し分析します。これは、モデルが環境との相互作用よりも内部推論の連鎖を好む現象です。SWE Bench Verifiedを使用したソフトウェアエンジニアリングタスクの実験により、3つの再発パターン:分析麻痺、ローグアクション、早すぎる離脱を観察します。これらの振る舞いを研究するためのフレームワークを提案し、人間の専門家の評価と相関することを示し、4018の軌道を分析します。過剰思考スコアが高いほど、パフォーマンスが低下すること、推論モデルが非推論モデルよりも過剰思考の傾向が強いことが観察されます。過剰思考を緩和するための簡単な取り組み(例:過剰思考スコアが低い解を選択する)は、モデルのパフォーマンスを約30%向上させると同時に、計算コストを43%削減できることが示されます。これらの結果から、過剰思考を緩和することは実用的な意義があると考えられます。ネイティブな関数呼び出し機能と選択的強化学習を活用することで、過剰思考の傾向を緩和できる可能性があります。また、評価フレームワークとデータセットをオープンソース化し、この方向の研究を促進するために、https://github.com/AlexCuadron/Overthinking で公開しています。
English
Large Reasoning Models (LRMs) represent a breakthrough in AI problem-solving
capabilities, but their effectiveness in interactive environments can be
limited. This paper introduces and analyzes overthinking in LRMs. A phenomenon
where models favor extended internal reasoning chains over environmental
interaction. Through experiments on software engineering tasks using SWE Bench
Verified, we observe three recurring patterns: Analysis Paralysis, Rogue
Actions, and Premature Disengagement. We propose a framework to study these
behaviors, which correlates with human expert assessments, and analyze 4018
trajectories. We observe that higher overthinking scores correlate with
decreased performance, with reasoning models exhibiting stronger tendencies
toward overthinking compared to non-reasoning models. Our analysis reveals that
simple efforts to mitigate overthinking in agentic environments, such as
selecting the solution with the lower overthinking score, can improve model
performance by almost 30% while reducing computational costs by 43%. These
results suggest that mitigating overthinking has strong practical implications.
We suggest that by leveraging native function-calling capabilities and
selective reinforcement learning overthinking tendencies could be mitigated. We
also open-source our evaluation framework and dataset to facilitate research in
this direction at https://github.com/AlexCuadron/Overthinking.Summary
AI-Generated Summary