Raciocínio Latente com Fluxos Normalizadores

Resumo

Modelos de linguagem de grande porte frequentemente melhoram o raciocínio gerando cadeias de pensamento (CoT) explícitas, demonstrando a importância da computação intermediária. No entanto, a CoT textual força essa computação através de um fluxo discreto, serial e orientado à comunicação: cada etapa do raciocínio deve ser verbalizada antes que o modelo possa prosseguir, mesmo quando a atualização subjacente é semântica, incerta ou apenas parcialmente formada. O raciocínio latente oferece uma alternativa de maior largura de banda ao realizar computação intermediária em estados contínuos compactos antes de se comprometer com o texto. Contudo, métodos existentes de raciocínio latente frequentemente sacrificam vantagens essenciais que tornam a CoT eficaz em modelos de linguagem autorregressivos, incluindo a geração nativa da esquerda para a direita, a amostragem probabilística, a compatibilidade com decodificação em cache KV e a estimativa tratável de verossimilhança. Propomos o NF-CoT, uma estrutura de raciocínio latente que preserva essas vantagens ao modelar pensamentos contínuos com fluxos normalizantes. O NF-CoT instancia um fluxo normalizante no estilo TARFlow dentro da espinha dorsal do LLM, definindo um modelo probabilístico tratável sobre pensamentos contínuos compactos destilados da CoT explícita. As posições dos pensamentos contínuos são geradas por uma cabeça NF, enquanto as posições de texto são geradas pela cabeça LM padrão dentro do mesmo fluxo causal. Esse design fornece verossimilhanças exatas para pensamentos latentes, permite decodificação probabilística da esquerda para a direita com o cache KV original e suporta otimização direta por gradiente de política no espaço de raciocínio latente. Em benchmarks de geração de código, o NF-CoT melhora as taxas de aprovação em relação à CoT explícita e às bases de raciocínio latente anteriores, reduzindo substancialmente o custo de raciocínio intermediário.

English

Large language models often improve reasoning by generating explicit chain-of-thought (CoT), demonstrating the importance of intermediate computation. However, textual CoT forces this computation through a discrete, serial, and communication-oriented token stream: each reasoning step must be verbalized before the model can proceed, even when the underlying update is semantic, uncertain, or only partially formed. Latent reasoning offers a higher-bandwidth alternative by performing intermediate computation in compact continuous states before committing to text. Yet existing latent-reasoning methods often sacrifice key advantages that make CoT effective in autoregressive language models, including native left-to-right generation, probabilistic sampling, compatibility with KV-cache decoding, and tractable likelihood estimation. We propose NF-CoT, a latent reasoning framework that preserves these advantages by modeling continuous thoughts with normalizing flows. NF-CoT instantiates a TARFlow-style normalizing flow inside the LLM backbone, defining a tractable probability model over compact continuous thoughts distilled from explicit CoT. Continuous-thought positions are generated by an NF head, while text positions are generated by the standard LM head within the same causal stream. This design provides exact likelihoods for latent thoughts, enables probabilistic left-to-right decoding with the original KV cache, and supports direct policy-gradient optimization in the latent reasoning space. On code-generation benchmarks, NF-CoT improves pass rates over explicit-CoT and prior latent-reasoning baselines while substantially reducing intermediate-reasoning cost.