Premissa Ausente Exacerba o Pensamento Excessivo: Os Modelos de Raciocínio Estão Perdendo a Habilidade de Pensamento Crítico?

Resumo

Descobrimos que o comprimento da resposta de LLMs de raciocínio, sejam treinados por aprendizado por reforço ou aprendizado supervisionado, aumenta drasticamente para perguntas mal formuladas com premissas ausentes (MiP), resultando em pensamentos redundantes e ineficazes. Esse cenário recém-introduzido exacerba em grande medida o problema geral de superpensamento, que denominamos como MiP-Superpensamento. Tais falhas vão contra a "lei de escalonamento em tempo de teste", mas foram amplamente observadas em múltiplos conjuntos de dados que curamos com MiP, indicando o prejuízo do superpensamento barato e a falta de pensamento crítico. Surpreendentemente, LLMs não especificamente treinados para raciocínio exibem um desempenho muito melhor no cenário MiP, produzindo respostas muito mais curtas que identificam rapidamente consultas mal formuladas. Isso implica uma falha crítica na receita de treinamento atual para LLMs de raciocínio, que não incentiva adequadamente o pensamento eficiente, levando ao abuso de padrões de pensamento. Para investigar mais a fundo as razões por trás dessas falhas, conduzimos análises detalhadas do comprimento do raciocínio, padrões de superpensamento e localização do pensamento crítico em diferentes tipos de LLMs. Além disso, nosso estudo de ablação estendido revela que o superpensamento é contagioso através da destilação das respostas dos modelos de raciocínio. Esses resultados melhoram a compreensão do superpensamento e oferecem novas perspectivas para mitigar o problema.

English

We find that the response length of reasoning LLMs, whether trained by reinforcement learning or supervised learning, drastically increases for ill-posed questions with missing premises (MiP), ending up with redundant and ineffective thinking. This newly introduced scenario exacerbates the general overthinking issue to a large extent, which we name as the MiP-Overthinking. Such failures are against the ``test-time scaling law'' but have been widely observed on multiple datasets we curated with MiP, indicating the harm of cheap overthinking and a lack of critical thinking. Surprisingly, LLMs not specifically trained for reasoning exhibit much better performance on the MiP scenario, producing much shorter responses that quickly identify ill-posed queries. This implies a critical flaw of the current training recipe for reasoning LLMs, which does not encourage efficient thinking adequately, leading to the abuse of thinking patterns. To further investigate the reasons behind such failures, we conduct fine-grained analyses of the reasoning length, overthinking patterns, and location of critical thinking on different types of LLMs. Moreover, our extended ablation study reveals that the overthinking is contagious through the distillation of reasoning models' responses. These results improve the understanding of overthinking and shed novel insights into mitigating the problem.

Premissa Ausente Exacerba o Pensamento Excessivo: Os Modelos de Raciocínio Estão Perdendo a Habilidade de Pensamento Crítico?

Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?

Resumo

Summary

Support

Support