Razonamiento Latente con Flujos Normalizantes

Resumen

Los modelos de lenguaje grandes a menudo mejoran el razonamiento al generar una cadena de pensamiento (CoT) explícita, lo que demuestra la importancia del cálculo intermedio. Sin embargo, la CoT textual obliga a este cálculo a través de un flujo de tokens discreto, serial y orientado a la comunicación: cada paso de razonamiento debe verbalizarse antes de que el modelo pueda continuar, incluso cuando la actualización subyacente es semántica, incierta o solo está parcialmente formada. El razonamiento latente ofrece una alternativa de mayor ancho de banda al realizar cálculos intermedios en estados continuos compactos antes de comprometerse con el texto. Sin embargo, los métodos de razonamiento latente existentes a menudo sacrifican ventajas clave que hacen que la CoT sea efectiva en modelos de lenguaje autorregresivos, incluida la generación nativa de izquierda a derecha, el muestreo probabilístico, la compatibilidad con la decodificación de caché KV y la estimación manejable de verosimilitud. Proponemos NF-CoT, un marco de razonamiento latente que preserva estas ventajas al modelar pensamientos continuos con flujos normalizadores. NF-CoT instancia un flujo normalizador de estilo TARFlow dentro de la columna vertebral del LLM, definiendo un modelo de probabilidad manejable sobre pensamientos continuos compactos destilados de CoT explícita. Las posiciones de pensamiento continuo son generadas por un cabezal NF, mientras que las posiciones de texto son generadas por el cabezal LM estándar dentro del mismo flujo causal. Este diseño proporciona verosimilitudes exactas para pensamientos latentes, permite la decodificación probabilística de izquierda a derecha con la caché KV original y admite la optimización directa del gradiente de política en el espacio de razonamiento latente. En puntos de referencia de generación de código, NF-CoT mejora las tasas de aprobación sobre la CoT explícita y las líneas base de razonamiento latente previas, al tiempo que reduce sustancialmente el costo de razonamiento intermedio.

English

Large language models often improve reasoning by generating explicit chain-of-thought (CoT), demonstrating the importance of intermediate computation. However, textual CoT forces this computation through a discrete, serial, and communication-oriented token stream: each reasoning step must be verbalized before the model can proceed, even when the underlying update is semantic, uncertain, or only partially formed. Latent reasoning offers a higher-bandwidth alternative by performing intermediate computation in compact continuous states before committing to text. Yet existing latent-reasoning methods often sacrifice key advantages that make CoT effective in autoregressive language models, including native left-to-right generation, probabilistic sampling, compatibility with KV-cache decoding, and tractable likelihood estimation. We propose NF-CoT, a latent reasoning framework that preserves these advantages by modeling continuous thoughts with normalizing flows. NF-CoT instantiates a TARFlow-style normalizing flow inside the LLM backbone, defining a tractable probability model over compact continuous thoughts distilled from explicit CoT. Continuous-thought positions are generated by an NF head, while text positions are generated by the standard LM head within the same causal stream. This design provides exact likelihoods for latent thoughts, enables probabilistic left-to-right decoding with the original KV cache, and supports direct policy-gradient optimization in the latent reasoning space. On code-generation benchmarks, NF-CoT improves pass rates over explicit-CoT and prior latent-reasoning baselines while substantially reducing intermediate-reasoning cost.