Sobrelimitación del Razonamiento en LLM: Monitoreo y Control de la Longitud de las Rutas de Pensamiento en LLMs
Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs
June 8, 2025
Autores: Roy Eisenstadt, Itamar Zimerman, Lior Wolf
cs.AI
Resumen
Recientemente, técnicas como el razonamiento estructurado explícito han demostrado un fuerte comportamiento de escalado en el momento de la prueba al imponer una separación entre el proceso de "pensamiento" interno del modelo y la respuesta final. Un factor clave que influye en la calidad de la respuesta en este contexto es la duración de la etapa de pensamiento. Cuando el razonamiento es demasiado breve, el modelo puede no captar la complejidad de la tarea. Por el contrario, cuando es demasiado largo, el modelo puede sobrepensar, lo que lleva a un cálculo innecesario y a un deterioro del rendimiento. Este artículo explora y aprovecha los mecanismos subyacentes mediante los cuales los modelos de lenguaje grandes (LLMs) comprenden y regulan la duración de su razonamiento durante los procesos de pensamiento explícito. En primer lugar, mostramos que los LLMs codifican su progreso a través del proceso de razonamiento e introducimos una visualización interactiva de una barra de progreso, que luego se utiliza para revelar información sobre la dinámica de planificación del modelo. En segundo lugar, manipulamos la codificación interna del progreso durante la inferencia para reducir pasos innecesarios y generar una cadena de pensamientos más concisa y decisiva. Nuestros resultados empíricos demuestran que este método de "sobreaceleración" mitiga el sobrepensamiento, mejora la precisión de las respuestas y reduce la latencia de inferencia. Nuestro código está disponible públicamente.
English
Recently, techniques such as explicit structured reasoning have demonstrated
strong test-time scaling behavior by enforcing a separation between the model's
internal "thinking" process and the final response. A key factor influencing
answer quality in this setting is the length of the thinking stage. When the
reasoning is too short, the model may fail to capture the complexity of the
task. Conversely, when it is too long, the model may overthink, leading to
unnecessary computation and degraded performance. This paper explores and
exploits the underlying mechanisms by which LLMs understand and regulate the
length of their reasoning during explicit thought processes. First, we show
that LLMs encode their progress through the reasoning process and introduce an
interactive progress bar visualization, which is then used to reveal insights
on the model's planning dynamics. Second, we manipulate the internal progress
encoding during inference to reduce unnecessary steps and generate a more
concise and decisive chain of thoughts. Our empirical results demonstrate that
this "overclocking" method mitigates overthinking, improves answer accuracy,
and reduces inference latency. Our code is publicly available.