ChatPaper.aiChatPaper

過度な考え込みの危険性:エージェンティックタスクにおける推論と行動のジレンマの検討

The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks

February 12, 2025
著者: Alejandro Cuadron, Dacheng Li, Wenjie Ma, Xingyao Wang, Yichuan Wang, Siyuan Zhuang, Shu Liu, Luis Gaspar Schroeder, Tian Xia, Huanzhi Mao, Nicholas Thumiger, Aditya Desai, Ion Stoica, Ana Klimovic, Graham Neubig, Joseph E. Gonzalez
cs.AI

要旨

大規模推論モデル(LRMs)は、AI問題解決能力における画期的な進歩を表していますが、対話環境における効果は限定されることがあります。本論文では、LRMsにおける過剰思考(overthinking)を紹介し分析します。これは、モデルが環境との相互作用よりも内部推論の連鎖を好む現象です。SWE Bench Verifiedを使用したソフトウェアエンジニアリングタスクの実験により、3つの再発パターン:分析麻痺、ローグアクション、早すぎる離脱を観察します。これらの振る舞いを研究するためのフレームワークを提案し、人間の専門家の評価と相関することを示し、4018の軌道を分析します。過剰思考スコアが高いほど、パフォーマンスが低下すること、推論モデルが非推論モデルよりも過剰思考の傾向が強いことが観察されます。過剰思考を緩和するための簡単な取り組み(例:過剰思考スコアが低い解を選択する)は、モデルのパフォーマンスを約30%向上させると同時に、計算コストを43%削減できることが示されます。これらの結果から、過剰思考を緩和することは実用的な意義があると考えられます。ネイティブな関数呼び出し機能と選択的強化学習を活用することで、過剰思考の傾向を緩和できる可能性があります。また、評価フレームワークとデータセットをオープンソース化し、この方向の研究を促進するために、https://github.com/AlexCuadron/Overthinking で公開しています。
English
Large Reasoning Models (LRMs) represent a breakthrough in AI problem-solving capabilities, but their effectiveness in interactive environments can be limited. This paper introduces and analyzes overthinking in LRMs. A phenomenon where models favor extended internal reasoning chains over environmental interaction. Through experiments on software engineering tasks using SWE Bench Verified, we observe three recurring patterns: Analysis Paralysis, Rogue Actions, and Premature Disengagement. We propose a framework to study these behaviors, which correlates with human expert assessments, and analyze 4018 trajectories. We observe that higher overthinking scores correlate with decreased performance, with reasoning models exhibiting stronger tendencies toward overthinking compared to non-reasoning models. Our analysis reveals that simple efforts to mitigate overthinking in agentic environments, such as selecting the solution with the lower overthinking score, can improve model performance by almost 30% while reducing computational costs by 43%. These results suggest that mitigating overthinking has strong practical implications. We suggest that by leveraging native function-calling capabilities and selective reinforcement learning overthinking tendencies could be mitigated. We also open-source our evaluation framework and dataset to facilitate research in this direction at https://github.com/AlexCuadron/Overthinking.

Summary

AI-Generated Summary

PDF582February 17, 2025