Sem Plano Global no Pensamento em Cadeia: Revelando o Horizonte de Planejamento Latente dos LLMs
No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs
February 2, 2026
Autores: Liyan Xu, Mo Yu, Fandong Meng, Jie Zhou
cs.AI
Resumo
Este trabalho surge de observações complementares anteriores sobre a dinâmica da Cadeia de Pensamento (CoT): demonstra-se que os Modelos de Linguagem de Grande Escala (LLMs) realizam um planeamento latente do raciocínio subsequente antes da emergência da CoT, diminuindo assim a importância da CoT explícita; contudo, a CoT mantém-se crítica para tarefas que exigem raciocínio multi-etapas. Para aprofundar a compreensão entre os estados internos dos LLMs e as suas trajectórias de raciocínio verbalizadas, investigamos a capacidade de planeamento latente dos LLMs através do nosso método de sondagem, Tele-Lens, aplicado aos estados ocultos em diversos domínios de tarefas. Os nossos resultados empíricos indicam que os LLMs exibem um horizonte míope, realizando principalmente transições incrementais sem um planeamento global preciso. Aproveitando esta característica, propomos uma hipótese para melhorar a estimativa de incerteza da CoT, validando que um pequeno subconjunto de posições da CoT pode representar eficazmente a incerteza de todo o percurso. Salientamos ainda a importância de explorar a dinâmica da CoT e demonstramos que o reconhecimento automático do bypass da CoT pode ser alcançado sem degradação do desempenho. O nosso código, dados e modelos estão disponíveis em https://github.com/lxucs/tele-lens.
English
This work stems from prior complementary observations on the dynamics of Chain-of-Thought (CoT): Large Language Models (LLMs) is shown latent planning of subsequent reasoning prior to CoT emergence, thereby diminishing the significance of explicit CoT; whereas CoT remains critical for tasks requiring multi-step reasoning. To deepen the understanding between LLM's internal states and its verbalized reasoning trajectories, we investigate the latent planning strength of LLMs, through our probing method, Tele-Lens, applying to hidden states across diverse task domains. Our empirical results indicate that LLMs exhibit a myopic horizon, primarily conducting incremental transitions without precise global planning. Leveraging this characteristic, we propose a hypothesis on enhancing uncertainty estimation of CoT, which we validate that a small subset of CoT positions can effectively represent the uncertainty of the entire path. We further underscore the significance of exploiting CoT dynamics, and demonstrate that automatic recognition of CoT bypass can be achieved without performance degradation. Our code, data and models are released at https://github.com/lxucs/tele-lens.