ChatPaper.aiChatPaper

欠落した前提が過剰思考を助長する:推論モデルは批判的思考能力を失いつつあるのか?

Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?

April 9, 2025
著者: Chenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou
cs.AI

要旨

我々は、強化学習または教師あり学習によって訓練された推論LLMの応答長が、前提条件が欠落した不適切な質問(MiP)に対して劇的に増加し、冗長で非効率な思考に終始することを発見しました。この新たに導入されたシナリオは、一般的な過剰思考問題を大幅に悪化させ、我々はこれをMiP-過剰思考と命名しました。このような失敗は「テスト時のスケーリング則」に反するものの、我々がMiPを用いて作成した複数のデータセットで広く観察され、安易な過剰思考と批判的思考の欠如の弊害を示しています。驚くべきことに、推論に特化して訓練されていないLLMは、MiPシナリオにおいてはるかに優れたパフォーマンスを示し、不適切なクエリを迅速に特定するはるかに短い応答を生成しました。これは、現在の推論LLMの訓練方法に重大な欠陥があることを示唆しており、効率的な思考を十分に促進せず、思考パターンの乱用を招いていると考えられます。このような失敗の背後にある理由をさらに調査するため、我々は異なるタイプのLLMにおける推論長、過剰思考パターン、および批判的思考の位置に関する詳細な分析を行いました。さらに、我々の拡張されたアブレーション研究は、推論モデルの応答を通じて過剰思考が伝染することを明らかにしました。これらの結果は、過剰思考の理解を深め、この問題を緩和するための新たな洞察を提供します。
English
We find that the response length of reasoning LLMs, whether trained by reinforcement learning or supervised learning, drastically increases for ill-posed questions with missing premises (MiP), ending up with redundant and ineffective thinking. This newly introduced scenario exacerbates the general overthinking issue to a large extent, which we name as the MiP-Overthinking. Such failures are against the ``test-time scaling law'' but have been widely observed on multiple datasets we curated with MiP, indicating the harm of cheap overthinking and a lack of critical thinking. Surprisingly, LLMs not specifically trained for reasoning exhibit much better performance on the MiP scenario, producing much shorter responses that quickly identify ill-posed queries. This implies a critical flaw of the current training recipe for reasoning LLMs, which does not encourage efficient thinking adequately, leading to the abuse of thinking patterns. To further investigate the reasons behind such failures, we conduct fine-grained analyses of the reasoning length, overthinking patterns, and location of critical thinking on different types of LLMs. Moreover, our extended ablation study reveals that the overthinking is contagious through the distillation of reasoning models' responses. These results improve the understanding of overthinking and shed novel insights into mitigating the problem.

Summary

AI-Generated Summary

PDF393April 10, 2025