Sin Plan Global en Cadena de Pensamiento: Descubriendo el Horizonte de Planificación Latente de los LLM
No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs
February 2, 2026
Autores: Liyan Xu, Mo Yu, Fandong Meng, Jie Zhou
cs.AI
Resumen
Este trabajo surge de observaciones complementarias previas sobre la dinámica de la Cadena de Pensamiento (CoT): se demuestra que los Modelos de Lenguaje a Gran Escala (LLMs) realizan una planificación latente del razonamiento subsiguiente antes de la emergencia de la CoT, lo que disminuye la importancia de la CoT explícita; sin embargo, la CoT sigue siendo crítica para tareas que requieren razonamiento de múltiples pasos. Para profundizar en la comprensión de la relación entre los estados internos de los LLMs y sus trayectorias de razonamiento verbalizado, investigamos la capacidad de planificación latente de los LLMs mediante nuestro método de sondeo, Tele-Lens, aplicado a estados ocultos en diversos dominios de tareas. Nuestros resultados empíricos indican que los LLMs exhiben un horizonte miope, realizando principalmente transiciones incrementales sin una planificación global precisa. Aprovechando esta característica, proponemos una hipótesis para mejorar la estimación de incertidumbre de la CoT, la cual validamos demostrando que un pequeño subconjunto de posiciones de la CoT puede representar efectivamente la incertidumbre de toda la trayectoria. Además, subrayamos la importancia de explotar la dinámica de la CoT y demostramos que se puede lograr el reconocimiento automático de la omisión de la CoT sin degradación del rendimiento. Nuestro código, datos y modelos están disponibles en https://github.com/lxucs/tele-lens.
English
This work stems from prior complementary observations on the dynamics of Chain-of-Thought (CoT): Large Language Models (LLMs) is shown latent planning of subsequent reasoning prior to CoT emergence, thereby diminishing the significance of explicit CoT; whereas CoT remains critical for tasks requiring multi-step reasoning. To deepen the understanding between LLM's internal states and its verbalized reasoning trajectories, we investigate the latent planning strength of LLMs, through our probing method, Tele-Lens, applying to hidden states across diverse task domains. Our empirical results indicate that LLMs exhibit a myopic horizon, primarily conducting incremental transitions without precise global planning. Leveraging this characteristic, we propose a hypothesis on enhancing uncertainty estimation of CoT, which we validate that a small subset of CoT positions can effectively represent the uncertainty of the entire path. We further underscore the significance of exploiting CoT dynamics, and demonstrate that automatic recognition of CoT bypass can be achieved without performance degradation. Our code, data and models are released at https://github.com/lxucs/tele-lens.