ChatPaper.aiChatPaper

Отсутствие предпосылок усугубляет чрезмерное обдумывание: Теряют ли модели рассуждений навыки критического мышления?

Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?

April 9, 2025
Авторы: Chenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou
cs.AI

Аннотация

Мы обнаружили, что длина ответов рассуждающих языковых моделей (LLM), независимо от того, обучены ли они с подкреплением или с учителем, резко увеличивается для некорректных вопросов с отсутствующими предпосылками (MiP), что приводит к избыточному и неэффективному мышлению. Этот новый сценарий значительно усугубляет общую проблему чрезмерного мышления, которую мы называем MiP-Overthinking. Такие сбои противоречат «закону масштабирования на этапе тестирования», но широко наблюдаются на нескольких наборах данных, которые мы создали с MiP, что указывает на вред дешевого чрезмерного мышления и отсутствие критического мышления. Удивительно, но LLM, не предназначенные специально для рассуждений, демонстрируют гораздо лучшую производительность в сценарии MiP, выдавая гораздо более короткие ответы, которые быстро идентифицируют некорректные запросы. Это указывает на критический недостаток текущего подхода к обучению рассуждающих LLM, который недостаточно поощряет эффективное мышление, что приводит к злоупотреблению шаблонами мышления. Чтобы глубже изучить причины таких сбоев, мы проводим детальный анализ длины рассуждений, паттернов чрезмерного мышления и местоположения критического мышления у различных типов LLM. Более того, наше расширенное исследование с исключением факторов показывает, что чрезмерное мышление заразно через дистилляцию ответов моделей рассуждений. Эти результаты улучшают понимание проблемы чрезмерного мышления и предлагают новые идеи для её смягчения.
English
We find that the response length of reasoning LLMs, whether trained by reinforcement learning or supervised learning, drastically increases for ill-posed questions with missing premises (MiP), ending up with redundant and ineffective thinking. This newly introduced scenario exacerbates the general overthinking issue to a large extent, which we name as the MiP-Overthinking. Such failures are against the ``test-time scaling law'' but have been widely observed on multiple datasets we curated with MiP, indicating the harm of cheap overthinking and a lack of critical thinking. Surprisingly, LLMs not specifically trained for reasoning exhibit much better performance on the MiP scenario, producing much shorter responses that quickly identify ill-posed queries. This implies a critical flaw of the current training recipe for reasoning LLMs, which does not encourage efficient thinking adequately, leading to the abuse of thinking patterns. To further investigate the reasons behind such failures, we conduct fine-grained analyses of the reasoning length, overthinking patterns, and location of critical thinking on different types of LLMs. Moreover, our extended ablation study reveals that the overthinking is contagious through the distillation of reasoning models' responses. These results improve the understanding of overthinking and shed novel insights into mitigating the problem.

Summary

AI-Generated Summary

PDF393April 10, 2025