ChatPaper.aiChatPaper

Los pensamientos están por todas partes: Sobre la sub-reflexión de LLMs similares a o1.

Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs

January 30, 2025
Autores: Yue Wang, Qiuzhi Liu, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Linfeng Song, Dian Yu, Juntao Li, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
cs.AI

Resumen

Los modelos de lenguaje grandes (LLMs) como el o1 de OpenAI han demostrado habilidades notables en tareas de razonamiento complejo al escalar el cálculo en tiempo de prueba y mostrar un pensamiento profundo similar al humano. Sin embargo, identificamos un fenómeno al que denominamos subpensamiento, donde los LLMs similares al o1 cambian frecuentemente entre diferentes pensamientos de razonamiento sin explorar suficientemente caminos prometedores para llegar a una solución correcta. Este comportamiento conduce a una profundidad de razonamiento inadecuada y un rendimiento disminuido, especialmente en problemas matemáticos desafiantes. Para analizar sistemáticamente este problema, realizamos experimentos en tres conjuntos de pruebas desafiantes y dos modelos de código abierto representativos similares al o1, revelando que el cambio frecuente de pensamientos se correlaciona con respuestas incorrectas. Introducimos una métrica novedosa para cuantificar el subpensamiento mediante la medición de la eficiencia de tokens en respuestas incorrectas. Para abordar el subpensamiento, proponemos una estrategia de decodificación con una penalización por cambio de pensamiento (TIP) que desalienta las transiciones prematuras entre pensamientos, fomentando una exploración más profunda de cada camino de razonamiento. Los resultados experimentales demuestran que nuestro enfoque mejora la precisión en conjuntos de datos desafiantes sin necesidad de ajuste fino del modelo. Nuestros hallazgos contribuyen a comprender las ineficiencias de razonamiento en LLMs similares al o1 y ofrecen una solución práctica para mejorar sus capacidades de resolución de problemas.
English
Large language models (LLMs) such as OpenAI's o1 have demonstrated remarkable abilities in complex reasoning tasks by scaling test-time compute and exhibiting human-like deep thinking. However, we identify a phenomenon we term underthinking, where o1-like LLMs frequently switch between different reasoning thoughts without sufficiently exploring promising paths to reach a correct solution. This behavior leads to inadequate depth of reasoning and decreased performance, particularly on challenging mathematical problems. To systematically analyze this issue, we conduct experiments on three challenging test sets and two representative open-source o1-like models, revealing that frequent thought switching correlates with incorrect responses. We introduce a novel metric to quantify underthinking by measuring token efficiency in incorrect answers. To address underthinking, we propose a decoding strategy with thought switching penalty TIP that discourages premature transitions between thoughts, encouraging deeper exploration of each reasoning path. Experimental results demonstrate that our approach improves accuracy across challenging datasets without requiring model fine-tuning. Our findings contribute to understanding reasoning inefficiencies in o1-like LLMs and offer a practical solution to enhance their problem-solving capabilities.

Summary

AI-Generated Summary

PDF6111January 31, 2025