Geen wereldwijd plan in Chain-of-Thought: Het latente planningshorizon van LLMs blootleggen
No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs
February 2, 2026
Auteurs: Liyan Xu, Mo Yu, Fandong Meng, Jie Zhou
cs.AI
Samenvatting
Dit werk vloeit voort uit eerdere complementaire observaties over de dynamiek van Chain-of-Thought (CoT): Grote Taalmodellen (LLM's) vertonen latente planning van daaropvolgende redenering vóór de opkomst van CoT, waardoor het belang van expliciete CoT afneemt; terwijl CoT cruciaal blijft voor taken die meerstapsredenering vereisen. Om het begrip tussen de interne toestanden van LLM's en hun verbaal gemaakte redeneertrajecten te verdiepen, onderzoeken we de latente planningssterkte van LLM's via onze peilmethode, Tele-Lens, toegepast op verborgen toestanden in diverse taakdomeinen. Onze empirische resultaten geven aan dat LLM's een myopische horizon vertonen en voornamelijk incrementele overgangen uitvoeren zonder precieze globale planning. Gebruikmakend van deze karakteristiek, stellen we een hypothese voor over het verbeteren van onzekerheidsinschatting bij CoT, waarbij we valideren dat een kleine subset van CoT-posities effectief de onzekerheid van het gehele pad kan vertegenwoordigen. We benadrukken verder het belang van het benutten van CoT-dynamiek en tonen aan dat automatische herkenning van CoT-omleiding kan worden bereikt zonder prestatieverlies. Onze code, data en modellen zijn vrijgegeven op https://github.com/lxucs/tele-lens.
English
This work stems from prior complementary observations on the dynamics of Chain-of-Thought (CoT): Large Language Models (LLMs) is shown latent planning of subsequent reasoning prior to CoT emergence, thereby diminishing the significance of explicit CoT; whereas CoT remains critical for tasks requiring multi-step reasoning. To deepen the understanding between LLM's internal states and its verbalized reasoning trajectories, we investigate the latent planning strength of LLMs, through our probing method, Tele-Lens, applying to hidden states across diverse task domains. Our empirical results indicate that LLMs exhibit a myopic horizon, primarily conducting incremental transitions without precise global planning. Leveraging this characteristic, we propose a hypothesis on enhancing uncertainty estimation of CoT, which we validate that a small subset of CoT positions can effectively represent the uncertainty of the entire path. We further underscore the significance of exploiting CoT dynamics, and demonstrate that automatic recognition of CoT bypass can be achieved without performance degradation. Our code, data and models are released at https://github.com/lxucs/tele-lens.