Latente redenering met normalisatiestromen

Samenvatting

Grote taalmodellen verbeteren vaak het redeneren door expliciete gedachteketens (CoT) te genereren, wat het belang van tussentijdse berekeningen aantoont. Tekstuele CoT dwingt deze berekening echter af via een discrete, seriële en communicatiegerichte tokenstroom: elke redeneerstap moet worden verwoord voordat het model verder kan gaan, zelfs wanneer de onderliggende update semantisch, onzeker of slechts gedeeltelijk gevormd is. Latente redenering biedt een hogerbandbreedte-alternatief door tussentijdse berekeningen uit te voeren in compacte continue toestanden alvorens over te gaan tot tekst. Toch offeren bestaande methoden voor latente redenering vaak belangrijke voordelen op die CoT effectief maken in autoregressieve taalmodellen, waaronder native links-naar-rechts generatie, probabilistische sampling, compatibiliteit met KV-cache-decodering en traceerbare waarschijnlijkheidsschatting. Wij stellen NF-CoT voor, een raamwerk voor latente redenering dat deze voordelen behoudt door continue gedachten te modelleren met normaliserende stromen. NF-CoT instantieert een normaliserende stroom van het TARFlow-type in de LLM-backbone, en definieert een traceerbaar waarschijnlijkheidsmodel over compacte continue gedachten die zijn gedestilleerd uit expliciete CoT. Posities van continue gedachten worden gegenereerd door een NF-kop, terwijl tekstposities worden gegenereerd door de standaard LM-kop binnen dezelfde causale stroom. Dit ontwerp biedt exacte waarschijnlijkheden voor latente gedachten, maakt probabilistische links-naar-rechts decodering mogelijk met de oorspronkelijke KV-cache, en ondersteunt directe beleidsgradiëntoptimalisatie in de latente redeneringsruimte. Op codegeneratiebenchmarks verbetert NF-CoT de slagingspercentages ten opzichte van expliciete CoT- en eerdere latente redeneringsbaselines, terwijl de kosten van tussentijdse redenering aanzienlijk worden verminderd.

English

Large language models often improve reasoning by generating explicit chain-of-thought (CoT), demonstrating the importance of intermediate computation. However, textual CoT forces this computation through a discrete, serial, and communication-oriented token stream: each reasoning step must be verbalized before the model can proceed, even when the underlying update is semantic, uncertain, or only partially formed. Latent reasoning offers a higher-bandwidth alternative by performing intermediate computation in compact continuous states before committing to text. Yet existing latent-reasoning methods often sacrifice key advantages that make CoT effective in autoregressive language models, including native left-to-right generation, probabilistic sampling, compatibility with KV-cache decoding, and tractable likelihood estimation. We propose NF-CoT, a latent reasoning framework that preserves these advantages by modeling continuous thoughts with normalizing flows. NF-CoT instantiates a TARFlow-style normalizing flow inside the LLM backbone, defining a tractable probability model over compact continuous thoughts distilled from explicit CoT. Continuous-thought positions are generated by an NF head, while text positions are generated by the standard LM head within the same causal stream. This design provides exact likelihoods for latent thoughts, enables probabilistic left-to-right decoding with the original KV cache, and supports direct policy-gradient optimization in the latent reasoning space. On code-generation benchmarks, NF-CoT improves pass rates over explicit-CoT and prior latent-reasoning baselines while substantially reducing intermediate-reasoning cost.