ChatPaper.aiChatPaper

L'absence de prémisses exacerbe la surréflexion : Les modèles de raisonnement perdent-ils leurs compétences en pensée critique ?

Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?

April 9, 2025
Auteurs: Chenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou
cs.AI

Résumé

Nous constatons que la longueur des réponses des LLM de raisonnement, qu'ils soient entraînés par apprentissage par renforcement ou par apprentissage supervisé, augmente considérablement face à des questions mal posées avec des prémisses manquantes (MiP), aboutissant à une pensée redondante et inefficace. Ce scénario nouvellement introduit exacerbe dans une large mesure le problème général de la surréflexion, que nous nommons MiP-Overthinking. Ces échecs vont à l'encontre de la « loi d'échelle au moment du test » mais ont été largement observés sur plusieurs ensembles de données que nous avons constitués avec des MiP, indiquant les méfaits d'une surréflexion bon marché et d'un manque de pensée critique. Étonnamment, les LLM non spécifiquement entraînés pour le raisonnement montrent une bien meilleure performance dans le scénario MiP, produisant des réponses beaucoup plus courtes qui identifient rapidement les requêtes mal posées. Cela révèle une faille critique dans la méthode d'entraînement actuelle des LLM de raisonnement, qui n'encourage pas suffisamment une pensée efficace, conduisant à l'abus de schémas de pensée. Pour approfondir les raisons de ces échecs, nous menons des analyses fines de la longueur du raisonnement, des schémas de surréflexion et de l'emplacement de la pensée critique sur différents types de LLM. De plus, notre étude d'ablation étendue révèle que la surréflexion est contagieuse à travers la distillation des réponses des modèles de raisonnement. Ces résultats améliorent la compréhension de la surréflexion et apportent de nouvelles perspectives pour atténuer ce problème.
English
We find that the response length of reasoning LLMs, whether trained by reinforcement learning or supervised learning, drastically increases for ill-posed questions with missing premises (MiP), ending up with redundant and ineffective thinking. This newly introduced scenario exacerbates the general overthinking issue to a large extent, which we name as the MiP-Overthinking. Such failures are against the ``test-time scaling law'' but have been widely observed on multiple datasets we curated with MiP, indicating the harm of cheap overthinking and a lack of critical thinking. Surprisingly, LLMs not specifically trained for reasoning exhibit much better performance on the MiP scenario, producing much shorter responses that quickly identify ill-posed queries. This implies a critical flaw of the current training recipe for reasoning LLMs, which does not encourage efficient thinking adequately, leading to the abuse of thinking patterns. To further investigate the reasons behind such failures, we conduct fine-grained analyses of the reasoning length, overthinking patterns, and location of critical thinking on different types of LLMs. Moreover, our extended ablation study reveals that the overthinking is contagious through the distillation of reasoning models' responses. These results improve the understanding of overthinking and shed novel insights into mitigating the problem.

Summary

AI-Generated Summary

PDF393April 10, 2025