Демистификация рекуррентности скрытых состояний: переключаемое латентное рассуждение с обучением с подкреплением на основе текущей политики

Аннотация

Скрытая цепочка рассуждений сжимает процесс мышления, заменяя видимые следы рассуждений непрерывной рекуррентностью скрытых состояний, однако существующие формулировки трудно оптимизировать с помощью стандартного обучения с подкреплением по текущей политике (RL) и сложно интерпретировать с точки зрения причинности. Наше ключевое наблюдение заключается в том, что одна пара явных граничных токенов может решить обе проблемы одновременно: дискретные якоря входа и выхода делают скрытый блок совместимым со стандартным on-policy RL, а те же якоря предоставляют естественную опору для механистического анализа. Руководствуясь этим, мы предлагаем SWITCH — переключаемую платформу для скрытых рассуждений. Модель выдает <swi> для входа в скрытый режим и </swi> для выхода. Поскольку границы являются обычными дискретными токенами, отношение политик GRPO четко определено в каждой точке принятия решений. Те же якоря также делают скрытые шаги доступными для прямого зондирования и причинного вмешательства. Мы обучаем модель с помощью учебной программы от видимого к скрытому и целевой функции Switch-GRPO, которая распространяет градиенты через рекуррентные скрытые вычисления. SWITCH последовательно превосходит предыдущие подходы к скрытым рассуждениям с рекуррентностью скрытых состояний при аналогичном масштабе. Механистический анализ через граничные токены дополнительно выявляет три результата: (i) <swi> является резко локализованной изученной политикой переключения, а не стилистическим артефактом; (ii) скрытый шаг, который он открывает, выполняет специфические для задачи, причинно важные вычисления, а не действует как инертный заполнитель; (iii) и эти вычисления сосредоточены на одном переходе скрытого состояния при входе. В совокупности эти результаты показывают, что скрытые рассуждения с рекуррентностью скрытых состояний обучаемы с помощью RL и открыты для прямого механистического анализа, включая то, как on-policy RL сам улучшает модель изнутри.

English

Latent chain-of-thought compresses reasoning by replacing visible reasoning traces with continuous hidden-state recurrence, but existing formulations are difficult to optimize with standard on-policy reinforcement learning (RL) and hard to interpret causally. Our key insight is that a single pair of explicit boundary tokens can address both issues at once: discrete entry and exit anchors make the latent block compatible with standard on-policy RL, and the same anchors offer a natural foothold for mechanistic analysis. Motivated by this, we propose SWITCH, a switchable latent reasoning framework. The model emits <swi> to enter latent mode and </swi> to exit. Because the boundaries are ordinary discrete tokens, the GRPO policy ratio is well-defined at every decision point. The same anchors also expose the latent steps to direct probing and causal intervention. We train the model with a visible-to-latent curriculum and a Switch-GRPO objective that propagates gradients through recurrent latent computation. SWITCH consistently outperforms prior hidden-state-recurrence latent reasoning approaches at similar scale. Mechanistic analysis through the boundary tokens further reveals three findings: (i) <swi> is a sharply localised, learned switching policy rather than a stylistic artefact; (ii) the latent step it opens performs problem-specific, causally important computation rather than acting as an inert placeholder; and (iii) that computation is concentrated at a single hidden-state transition on entry. Together, these results show that hidden-state-recurrence latent reasoning is both RL-trainable and open to direct mechanistic analysis, including of how on-policy RL itself improves the model from the inside.