Latentes Reasoning mit Normalisierenden Flüssen

Zusammenfassung

Große Sprachmodelle verbessern das Reasoning oft durch die Generierung expliziter Chain-of-Thought (CoT), was die Bedeutung von Zwischenberechnungen verdeutlicht. Allerdings erzwingt textuelles CoT diese Berechnung durch einen diskreten, seriellen und kommunikationsorientierten Token-Strom: Jeder Reasoning-Schritt muss verbalisiert werden, bevor das Modell fortfahren kann, selbst wenn die zugrunde liegende Aktualisierung semantisch, unsicher oder nur teilweise ausgeprägt ist. Latentes Reasoning bietet eine Alternative mit höherer Bandbreite, indem es Zwischenberechnungen in kompakten kontinuierlichen Zuständen durchführt, bevor es sich auf Text festlegt. Allerdings opfern bestehende Methoden des latenten Reasonings oft wichtige Vorteile, die CoT in autoregressiven Sprachmodellen effektiv machen, darunter die native Links-nach-Rechts-Generierung, probabilistisches Sampling, Kompatibilität mit KV-Cache-Dekodierung und handhabbare Likelihood-Schätzung. Wir schlagen NF-CoT vor, ein Framework für latentes Reasoning, das diese Vorteile bewahrt, indem es kontinuierliche Gedanken mit normalisierenden Flüssen modelliert. NF-CoT instanziiert einen normalisierenden Fluss im TARFlow-Stil innerhalb des LLM-Backbones und definiert ein handhabbares Wahrscheinlichkeitsmodell über kompakte kontinuierliche Gedanken, die aus explizitem CoT destilliert wurden. Kontinuierliche Gedankenpositionen werden von einem NF-Head generiert, während Textpositionen vom Standard-LM-Head innerhalb desselben kausalen Stroms generiert werden. Dieses Design liefert exakte Likelihoods für latente Gedanken, ermöglicht probabilistische Links-nach-Rechts-Dekodierung mit dem ursprünglichen KV-Cache und unterstützt direkte Policy-Gradient-Optimierung im latenten Reasoning-Raum. Bei Benchmarks zur Codegenerierung verbessert NF-CoT die Bestehensquoten gegenüber explizitem CoT und früheren Baseline-Methoden des latenten Reasonings, während es die Kosten des Zwischenreasonings erheblich reduziert.

English

Large language models often improve reasoning by generating explicit chain-of-thought (CoT), demonstrating the importance of intermediate computation. However, textual CoT forces this computation through a discrete, serial, and communication-oriented token stream: each reasoning step must be verbalized before the model can proceed, even when the underlying update is semantic, uncertain, or only partially formed. Latent reasoning offers a higher-bandwidth alternative by performing intermediate computation in compact continuous states before committing to text. Yet existing latent-reasoning methods often sacrifice key advantages that make CoT effective in autoregressive language models, including native left-to-right generation, probabilistic sampling, compatibility with KV-cache decoding, and tractable likelihood estimation. We propose NF-CoT, a latent reasoning framework that preserves these advantages by modeling continuous thoughts with normalizing flows. NF-CoT instantiates a TARFlow-style normalizing flow inside the LLM backbone, defining a tractable probability model over compact continuous thoughts distilled from explicit CoT. Continuous-thought positions are generated by an NF head, while text positions are generated by the standard LM head within the same causal stream. This design provides exact likelihoods for latent thoughts, enables probabilistic left-to-right decoding with the original KV cache, and supports direct policy-gradient optimization in the latent reasoning space. On code-generation benchmarks, NF-CoT improves pass rates over explicit-CoT and prior latent-reasoning baselines while substantially reducing intermediate-reasoning cost.