Cadena de Pensamiento Latente como Planificación: Desacoplando el Razonamiento de la Verbalización

Resumen

El razonamiento en cadena (CoT) permite a los Modelos de Lenguaje a Gran Escala (LLMs) abordar problemas complejos, pero sigue limitado por el costo computacional y el colapso de las rutas de razonamiento cuando se basa en espacios discretos de tokens. Los enfoques recientes de razonamiento latente intentan optimizar la eficiencia realizando el razonamiento dentro de estados ocultos continuos. Sin embargo, estos métodos suelen operar como mapeos opacos de extremo a extremo, desde pasos de razonamiento explícitos a estados latentes, y a menudo requieren un número predefinido de pasos latentes durante la inferencia. En este trabajo, presentamos PLaT (Planificación con Pensamientos Latentes), un marco que reformula el razonamiento latente como planificación al desacoplar fundamentalmente el razonamiento de la verbalización. Modelamos el razonamiento como una trayectoria determinista de estados de planificación latentes, mientras que un Decodificador separado fundamenta estos pensamientos en texto cuando es necesario. Este desacoplamiento permite al modelo determinar dinámicamente cuándo finalizar el razonamiento, en lugar de depender de hiperparámetros fijos. Los resultados empíricos en benchmarks matemáticos revelan una compensación distintiva: aunque PLaT logra una precisión greedy menor que los métodos de referencia, demuestra una escalabilidad superior en términos de diversidad de razonamiento. Esto indica que PLaT aprende un espacio de soluciones más robusto y amplio, ofreciendo una base transparente y escalable para la búsqueda durante la inferencia.

English

Chain-of-Thought (CoT) empowers Large Language Models (LLMs) to tackle complex problems, but remains constrained by the computational cost and reasoning path collapse when grounded in discrete token spaces. Recent latent reasoning approaches attempt to optimize efficiency by performing reasoning within continuous hidden states. However, these methods typically operate as opaque end-to-end mappings from explicit reasoning steps to latent states, and often require a pre-defined number of latent steps during inference. In this work, we introduce PLaT (Planning with Latent Thoughts), a framework that reformulates latent reasoning as planning by fundamentally decouple reasoning from verbalization. We model reasoning as a deterministic trajectory of latent planning states, while a separate Decoder grounds these thoughts into text when necessary. This decoupling allows the model to dynamically determine when to terminate reasoning rather than relying on fixed hyperparameters. Empirical results on mathematical benchmarks reveal a distinct trade-off: while PLaT achieves lower greedy accuracy than baselines, it demonstrates superior scalability in terms of reasoning diversity. This indicates that PLaT learns a robust, broader solution space, offering a transparent and scalable foundation for inference-time search.

Cadena de Pensamiento Latente como Planificación: Desacoplando el Razonamiento de la Verbalización

Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization

Resumen

Support