Latente Gedankenketten als Planung: Entkopplung des Schlussfolgerns von der Verbalisierung
Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization
January 29, 2026
papers.authors: Jiecong Wang, Hao Peng, Chunyang Liu
cs.AI
papers.abstract
Chain-of-Thought (CoT) befähigt große Sprachmodelle (LLMs), komplexe Probleme anzugehen, bleibt jedoch durch die Rechenkosten und den Kollaps von Reasoning-Pfaden eingeschränkt, wenn es auf diskreten Token-Räumen basiert. Jüngste Ansätze des latenten Reasoning versuchen, die Effizienz zu optimieren, indem sie das Reasoning innerhalb kontinuierlicher Hidden States durchführen. Diese Methoden operieren jedoch typischerweise als undurchsichtige End-to-End-Abbildungen von expliziten Reasoning-Schritten zu latenten Zuständen und erfordern oft eine vorab definierte Anzahl latenter Schritte während der Inferenz. In dieser Arbeit stellen wir PLaT (Planning with Latent Thoughts) vor, ein Framework, das latentes Reasoning als Planung neu formuliert, indem es Reasoning und Verbalisierung grundlegend entkoppelt. Wir modellieren Reasoning als eine deterministische Trajektorie latenter Planungszustände, während ein separater Decoder diese Gedanken bei Bedarf in Text überführt. Diese Entkopplung ermöglicht es dem Modell, dynamisch zu bestimmen, wann das Reasoning beendet werden soll, anstatt sich auf feste Hyperparameter zu verlassen. Empirische Ergebnisse auf mathematischen Benchmarks offenbaren einen deutlichen Kompromiss: Während PLaT eine geringere "Greedy"-Genauigkeit als Baseline-Modelle erreicht, zeigt es eine überlegene Skalierbarkeit in Bezug auf die Reasoning-Vielfalt. Dies deutet darauf hin, dass PLaT einen robusten, breiteren Lösungsraum lernt und eine transparente sowie skalierbare Grundlage für die Inferenzzeit-Suche bietet.
English
Chain-of-Thought (CoT) empowers Large Language Models (LLMs) to tackle complex problems, but remains constrained by the computational cost and reasoning path collapse when grounded in discrete token spaces. Recent latent reasoning approaches attempt to optimize efficiency by performing reasoning within continuous hidden states. However, these methods typically operate as opaque end-to-end mappings from explicit reasoning steps to latent states, and often require a pre-defined number of latent steps during inference. In this work, we introduce PLaT (Planning with Latent Thoughts), a framework that reformulates latent reasoning as planning by fundamentally decouple reasoning from verbalization. We model reasoning as a deterministic trajectory of latent planning states, while a separate Decoder grounds these thoughts into text when necessary. This decoupling allows the model to dynamically determine when to terminate reasoning rather than relying on fixed hyperparameters. Empirical results on mathematical benchmarks reveal a distinct trade-off: while PLaT achieves lower greedy accuracy than baselines, it demonstrates superior scalability in terms of reasoning diversity. This indicates that PLaT learns a robust, broader solution space, offering a transparent and scalable foundation for inference-time search.