Латентное рассуждение с нормализующими потоками

Аннотация

Крупные языковые модели часто улучшают рассуждения, генерируя явные цепочки мысли (CoT), что демонстрирует важность промежуточных вычислений. Однако текстовые CoT вынуждают эти вычисления проходить через дискретный, последовательный и ориентированный на коммуникацию поток токенов: каждый шаг рассуждения должен быть вербализован, прежде чем модель сможет продолжить, даже если соответствующее обновление является семантическим, неопределённым или лишь частично сформированным. Латентные рассуждения предлагают альтернативу с более высокой пропускной способностью, выполняя промежуточные вычисления в компактных непрерывных состояниях до перехода к тексту. Тем не менее, существующие методы латентных рассуждений часто жертвуют ключевыми преимуществами, которые делают CoT эффективными в авторегрессионных языковых моделях, включая естественную генерацию слева направо, вероятностную выборку, совместимость с декодированием с использованием KV-кэша и вычислимую оценку правдоподобия. Мы предлагаем NF-CoT — фреймворк латентных рассуждений, который сохраняет эти преимущества, моделируя непрерывные мысли с помощью нормализующих потоков. NF-CoT реализует нормализующий поток в стиле TARFlow внутри основы LLM, определяя вычислимую вероятностную модель компактных непрерывных мыслей, извлечённых из явных CoT. Позиции непрерывных мыслей генерируются головой NF, а текстовые позиции — стандартной головой LM в рамках того же причинно-следственного потока. Такая конструкция обеспечивает точные правдоподобия для латентных мыслей, позволяет вероятностное декодирование слева направо с исходным KV-кэшем и поддерживает прямую оптимизацию с градиентом политики в пространстве латентных рассуждений. На тестах генерации кода NF-CoT улучшает показатели успешности по сравнению с явными CoT и предыдущими базовыми методами латентных рассуждений, при этом существенно снижая стоимость промежуточных рассуждений.

English

Large language models often improve reasoning by generating explicit chain-of-thought (CoT), demonstrating the importance of intermediate computation. However, textual CoT forces this computation through a discrete, serial, and communication-oriented token stream: each reasoning step must be verbalized before the model can proceed, even when the underlying update is semantic, uncertain, or only partially formed. Latent reasoning offers a higher-bandwidth alternative by performing intermediate computation in compact continuous states before committing to text. Yet existing latent-reasoning methods often sacrifice key advantages that make CoT effective in autoregressive language models, including native left-to-right generation, probabilistic sampling, compatibility with KV-cache decoding, and tractable likelihood estimation. We propose NF-CoT, a latent reasoning framework that preserves these advantages by modeling continuous thoughts with normalizing flows. NF-CoT instantiates a TARFlow-style normalizing flow inside the LLM backbone, defining a tractable probability model over compact continuous thoughts distilled from explicit CoT. Continuous-thought positions are generated by an NF head, while text positions are generated by the standard LM head within the same causal stream. This design provides exact likelihoods for latent thoughts, enables probabilistic left-to-right decoding with the original KV cache, and supports direct policy-gradient optimization in the latent reasoning space. On code-generation benchmarks, NF-CoT improves pass rates over explicit-CoT and prior latent-reasoning baselines while substantially reducing intermediate-reasoning cost.