Скрытая цепочка рассуждений как планирование: разделение логического вывода и вербализации

Аннотация

Метод цепочки мыслей (CoT) расширяет возможности больших языковых моделей (LLM) для решения сложных задач, но остается ограниченным вычислительными затратами и коллапсом путей рассуждения при их привязке к дискретным пространствам токенов. Новейшие подходы к латентному рассуждению пытаются оптимизировать эффективность, выполняя рассуждения в рамках непрерывных скрытых состояний. Однако эти методы обычно функционируют как непрозрачные end-to-end преобразования из явных шагов рассуждения в латентные состояния и часто требуют заранее заданного количества латентных шагов на этапе вывода. В данной работе мы представляем PLaT (Planning with Latent Thoughts) — фреймворк, который переосмысливает латентное рассуждение как планирование, фундаментально разделяя рассуждение и вербализацию. Мы моделируем рассуждение как детерминированную траекторию латентных состояний планирования, в то время как отдельный Декодер при необходимости проецирует эти мысли в текст. Такое разделение позволяет модели динамически определять момент завершения рассуждения вместо reliance на фиксированные гиперпараметры. Эмпирические результаты на математических бенчмарках выявляют отчетливый компромисс: хотя PLaT демонстрирует более низкую «жадную» точность по сравнению с базовыми методами, он показывает превосходную масштабируемость с точки зрения разнообразия рассуждений. Это указывает на то, что PLaT осваивает robustное, более широкое пространство решений, предлагая прозрачную и масштабируемую основу для поиска на этапе вывода.

English

Chain-of-Thought (CoT) empowers Large Language Models (LLMs) to tackle complex problems, but remains constrained by the computational cost and reasoning path collapse when grounded in discrete token spaces. Recent latent reasoning approaches attempt to optimize efficiency by performing reasoning within continuous hidden states. However, these methods typically operate as opaque end-to-end mappings from explicit reasoning steps to latent states, and often require a pre-defined number of latent steps during inference. In this work, we introduce PLaT (Planning with Latent Thoughts), a framework that reformulates latent reasoning as planning by fundamentally decouple reasoning from verbalization. We model reasoning as a deterministic trajectory of latent planning states, while a separate Decoder grounds these thoughts into text when necessary. This decoupling allows the model to dynamically determine when to terminate reasoning rather than relying on fixed hyperparameters. Empirical results on mathematical benchmarks reveal a distinct trade-off: while PLaT achieves lower greedy accuracy than baselines, it demonstrates superior scalability in terms of reasoning diversity. This indicates that PLaT learns a robust, broader solution space, offering a transparent and scalable foundation for inference-time search.

Скрытая цепочка рассуждений как планирование: разделение логического вывода и вербализации

Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization

Аннотация

Support