Ontbrekende Premisse verergert Overdenken: Verliezen Redeneermodellen Kritisch Denkvermogen?
Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?
April 9, 2025
Auteurs: Chenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou
cs.AI
Samenvatting
We ontdekken dat de responslengte van redenerende LLM's, ongeacht of ze getraind zijn door middel van reinforcement learning of supervised learning, drastisch toeneemt bij slecht geformuleerde vragen met ontbrekende premissen (MiP), wat resulteert in redundante en inefficiënte denkprocessen. Dit nieuw geïntroduceerde scenario verergert het algemene overdenkprobleem in grote mate, wat we MiP-Overthinking noemen. Dergelijke mislukkingen gaan in tegen de "test-time scaling law", maar zijn op grote schaal waargenomen op meerdere datasets die we hebben samengesteld met MiP, wat wijst op de schade van goedkoop overdenken en een gebrek aan kritisch denken. Verrassend genoeg presteren LLM's die niet specifiek zijn getraind voor redenering veel beter in het MiP-scenario, waarbij ze veel kortere reacties produceren die snel slecht geformuleerde vragen identificeren. Dit wijst op een kritiek gebrek in het huidige trainingsrecept voor redenerende LLM's, dat efficiënt denken onvoldoende aanmoedigt, wat leidt tot misbruik van denkpatronen. Om de redenen achter dergelijke mislukkingen verder te onderzoeken, voeren we gedetailleerde analyses uit van de redeneringslengte, overdenkpatronen en de locatie van kritisch denken bij verschillende soorten LLM's. Bovendien onthult onze uitgebreide ablatiestudie dat overdenken besmettelijk is door de distillatie van de reacties van redeneringsmodellen. Deze resultaten verbeteren het begrip van overdenken en bieden nieuwe inzichten om het probleem te mitigeren.
English
We find that the response length of reasoning LLMs, whether trained by
reinforcement learning or supervised learning, drastically increases for
ill-posed questions with missing premises (MiP), ending up with redundant and
ineffective thinking. This newly introduced scenario exacerbates the general
overthinking issue to a large extent, which we name as the MiP-Overthinking.
Such failures are against the ``test-time scaling law'' but have been widely
observed on multiple datasets we curated with MiP, indicating the harm of cheap
overthinking and a lack of critical thinking. Surprisingly, LLMs not
specifically trained for reasoning exhibit much better performance on the MiP
scenario, producing much shorter responses that quickly identify ill-posed
queries. This implies a critical flaw of the current training recipe for
reasoning LLMs, which does not encourage efficient thinking adequately, leading
to the abuse of thinking patterns. To further investigate the reasons behind
such failures, we conduct fine-grained analyses of the reasoning length,
overthinking patterns, and location of critical thinking on different types of
LLMs. Moreover, our extended ablation study reveals that the overthinking is
contagious through the distillation of reasoning models' responses. These
results improve the understanding of overthinking and shed novel insights into
mitigating the problem.