Raisonnement latent avec flots normalisants

Résumé

Les grands modèles de langage améliorent souvent le raisonnement en générant une chaîne de pensée (CoT) explicite, démontrant ainsi l'importance du calcul intermédiaire. Cependant, la CoT textuelle contraint ce calcul à un flux de tokens discret, séquentiel et orienté vers la communication : chaque étape de raisonnement doit être verbalisée avant que le modèle puisse poursuivre, même lorsque la mise à jour sous-jacente est sémantique, incertaine ou seulement partiellement formée. Le raisonnement latent offre une alternative à plus large bande passante en effectuant un calcul intermédiaire dans des états continus compacts avant de s'engager dans le texte. Pourtant, les méthodes existantes de raisonnement latent sacrifient souvent des avantages clés qui rendent la CoT efficace dans les modèles de langage autorégressifs, notamment la génération native de gauche à droite, l'échantillonnage probabiliste, la compatibilité avec le décodage par cache KV et l'estimation de vraisemblance tractable. Nous proposons NF-CoT, un cadre de raisonnement latent qui préserve ces avantages en modélisant les pensées continues avec des flots normalisants. NF-CoT instancie un flot normalisant de type TARFlow au sein du backbone du LLM, définissant un modèle de probabilité tractable sur des pensées continues compactes distillées à partir de la CoT explicite. Les positions de pensée continue sont générées par une tête NF, tandis que les positions textuelles sont générées par la tête LM standard dans le même flux causal. Cette conception fournit des vraisemblances exactes pour les pensées latentes, permet un décodage probabiliste de gauche à droite avec le cache KV d'origine et prend en charge l'optimisation directe par gradient de politique dans l'espace de raisonnement latent. Sur les benchmarks de génération de code, NF-CoT améliore les taux de réussite par rapport à la CoT explicite et aux bases de référence de raisonnement latent antérieures, tout en réduisant considérablement le coût de raisonnement intermédiaire.

English

Large language models often improve reasoning by generating explicit chain-of-thought (CoT), demonstrating the importance of intermediate computation. However, textual CoT forces this computation through a discrete, serial, and communication-oriented token stream: each reasoning step must be verbalized before the model can proceed, even when the underlying update is semantic, uncertain, or only partially formed. Latent reasoning offers a higher-bandwidth alternative by performing intermediate computation in compact continuous states before committing to text. Yet existing latent-reasoning methods often sacrifice key advantages that make CoT effective in autoregressive language models, including native left-to-right generation, probabilistic sampling, compatibility with KV-cache decoding, and tractable likelihood estimation. We propose NF-CoT, a latent reasoning framework that preserves these advantages by modeling continuous thoughts with normalizing flows. NF-CoT instantiates a TARFlow-style normalizing flow inside the LLM backbone, defining a tractable probability model over compact continuous thoughts distilled from explicit CoT. Continuous-thought positions are generated by an NF head, while text positions are generated by the standard LM head within the same causal stream. This design provides exact likelihoods for latent thoughts, enables probabilistic left-to-right decoding with the original KV cache, and supports direct policy-gradient optimization in the latent reasoning space. On code-generation benchmarks, NF-CoT improves pass rates over explicit-CoT and prior latent-reasoning baselines while substantially reducing intermediate-reasoning cost.