La Falta de Premisas Exacerba la Sobreinterpretación: ¿Están Perdiendo los Modelos de Razonamiento la Habilidad de Pensamiento Crítico?

Resumen

Encontramos que la longitud de las respuestas de los LLM de razonamiento, ya sean entrenados mediante aprendizaje por refuerzo o aprendizaje supervisado, aumenta drásticamente ante preguntas mal planteadas con premisas faltantes (MiP), lo que resulta en un pensamiento redundante e ineficaz. Este escenario recién introducido exacerba en gran medida el problema general de sobrepensar, al que denominamos MiP-Overthinking. Dichos fallos van en contra de la "ley de escalado en tiempo de prueba", pero se han observado ampliamente en múltiples conjuntos de datos que hemos curado con MiP, lo que indica el daño del sobrepensamiento barato y la falta de pensamiento crítico. Sorprendentemente, los LLM no específicamente entrenados para razonar muestran un rendimiento mucho mejor en el escenario MiP, produciendo respuestas mucho más cortas que identifican rápidamente consultas mal planteadas. Esto implica un defecto crítico en la receta de entrenamiento actual para los LLM de razonamiento, que no fomenta adecuadamente el pensamiento eficiente, lo que lleva al abuso de patrones de pensamiento. Para investigar más a fondo las razones detrás de estos fallos, realizamos análisis detallados de la longitud del razonamiento, los patrones de sobrepensamiento y la ubicación del pensamiento crítico en diferentes tipos de LLM. Además, nuestro estudio de ablación extendido revela que el sobrepensamiento es contagioso a través de la destilación de las respuestas de los modelos de razonamiento. Estos resultados mejoran la comprensión del sobrepensamiento y ofrecen nuevas ideas para mitigar el problema.

English

We find that the response length of reasoning LLMs, whether trained by reinforcement learning or supervised learning, drastically increases for ill-posed questions with missing premises (MiP), ending up with redundant and ineffective thinking. This newly introduced scenario exacerbates the general overthinking issue to a large extent, which we name as the MiP-Overthinking. Such failures are against the ``test-time scaling law'' but have been widely observed on multiple datasets we curated with MiP, indicating the harm of cheap overthinking and a lack of critical thinking. Surprisingly, LLMs not specifically trained for reasoning exhibit much better performance on the MiP scenario, producing much shorter responses that quickly identify ill-posed queries. This implies a critical flaw of the current training recipe for reasoning LLMs, which does not encourage efficient thinking adequately, leading to the abuse of thinking patterns. To further investigate the reasons behind such failures, we conduct fine-grained analyses of the reasoning length, overthinking patterns, and location of critical thinking on different types of LLMs. Moreover, our extended ablation study reveals that the overthinking is contagious through the distillation of reasoning models' responses. These results improve the understanding of overthinking and shed novel insights into mitigating the problem.

La Falta de Premisas Exacerba la Sobreinterpretación: ¿Están Perdiendo los Modelos de Razonamiento la Habilidad de Pensamiento Crítico?

Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?

Resumen

Support