Kein globaler Plan in Chain-of-Thought: Aufdeckung des latenten Planungshorizonts von LLMs
No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs
February 2, 2026
papers.authors: Liyan Xu, Mo Yu, Fandong Meng, Jie Zhou
cs.AI
papers.abstract
Diese Arbeit geht auf frühere ergänzende Beobachtungen zur Dynamik von Chain-of-Thought (CoT) zurück: Es wird gezeigt, dass Large Language Models (LLMs) latente Planung nachfolgender Schlussfolgerungen betreiben, noch bevor CoT explizit auftritt, was die Bedeutung von explizitem CoT verringert; dennoch bleibt CoT für Aufgaben mit mehrstufiger Argumentation entscheidend. Um das Verständnis zwischen den internen Zuständen von LLMs und ihren verbalisierten Reasoning-Pfaden zu vertiefen, untersuchen wir die latente Planungsstärke von LLMs mittels unserer Abfragemethode Tele-Lens, die auf verborgenen Zuständen in verschiedenen Aufgabenbereichen angewendet wird. Unsere empirischen Ergebnisse deuten darauf hin, dass LLMs einen myopischen Planungshorizont aufweisen und primär inkrementelle Übergänge ohne präzise globale Planung vollziehen. Aufbauend auf dieser Eigenschaft stellen wir eine Hypothese zur Verbesserung der Unsicherheitsschätzung von CoT auf und validieren, dass eine kleine Teilmenge von CoT-Positionen die Unsicherheit des gesamten Pfades effektiv repräsentieren kann. Wir betonen ferner die Bedeutung der Nutzung von CoT-Dynamiken und demonstrieren, dass eine automatische Erkennung von CoT-Umgehungen ohne Leistungseinbußen möglich ist. Unser Code, unsere Daten und Modelle sind unter https://github.com/lxucs/tele-lens verfügbar.
English
This work stems from prior complementary observations on the dynamics of Chain-of-Thought (CoT): Large Language Models (LLMs) is shown latent planning of subsequent reasoning prior to CoT emergence, thereby diminishing the significance of explicit CoT; whereas CoT remains critical for tasks requiring multi-step reasoning. To deepen the understanding between LLM's internal states and its verbalized reasoning trajectories, we investigate the latent planning strength of LLMs, through our probing method, Tele-Lens, applying to hidden states across diverse task domains. Our empirical results indicate that LLMs exhibit a myopic horizon, primarily conducting incremental transitions without precise global planning. Leveraging this characteristic, we propose a hypothesis on enhancing uncertainty estimation of CoT, which we validate that a small subset of CoT positions can effectively represent the uncertainty of the entire path. We further underscore the significance of exploiting CoT dynamics, and demonstrate that automatic recognition of CoT bypass can be achieved without performance degradation. Our code, data and models are released at https://github.com/lxucs/tele-lens.