Демистификация рекуррентности скрытых состояний: переключаемое латентное рассуждение с обучением с подкреплением на основе текущей политики
Demystifying Hidden-State Recurrence: Switchable Latent Reasoning with On-Policy Reinforcement Learning
June 11, 2026
Авторы: Jiayu Yang, Chao Chen, Shengen Wu, Yinhong Liu, Yuxuan Fan, Lujundong Li, Songning Lai, Chengwei Qin, Zhijiang Guo
cs.AI
Аннотация
Скрытая цепочка рассуждений сжимает процесс мышления, заменяя видимые следы рассуждений непрерывной рекуррентностью скрытых состояний, однако существующие формулировки трудно оптимизировать с помощью стандартного обучения с подкреплением по текущей политике (RL) и сложно интерпретировать с точки зрения причинности. Наше ключевое наблюдение заключается в том, что одна пара явных граничных токенов может решить обе проблемы одновременно: дискретные якоря входа и выхода делают скрытый блок совместимым со стандартным on-policy RL, а те же якоря предоставляют естественную опору для механистического анализа. Руководствуясь этим, мы предлагаем SWITCH — переключаемую платформу для скрытых рассуждений. Модель выдает <swi> для входа в скрытый режим и </swi> для выхода. Поскольку границы являются обычными дискретными токенами, отношение политик GRPO четко определено в каждой точке принятия решений. Те же якоря также делают скрытые шаги доступными для прямого зондирования и причинного вмешательства. Мы обучаем модель с помощью учебной программы от видимого к скрытому и целевой функции Switch-GRPO, которая распространяет градиенты через рекуррентные скрытые вычисления. SWITCH последовательно превосходит предыдущие подходы к скрытым рассуждениям с рекуррентностью скрытых состояний при аналогичном масштабе. Механистический анализ через граничные токены дополнительно выявляет три результата: (i) <swi> является резко локализованной изученной политикой переключения, а не стилистическим артефактом; (ii) скрытый шаг, который он открывает, выполняет специфические для задачи, причинно важные вычисления, а не действует как инертный заполнитель; (iii) и эти вычисления сосредоточены на одном переходе скрытого состояния при входе. В совокупности эти результаты показывают, что скрытые рассуждения с рекуррентностью скрытых состояний обучаемы с помощью RL и открыты для прямого механистического анализа, включая то, как on-policy RL сам улучшает модель изнутри.
English
Latent chain-of-thought compresses reasoning by replacing visible reasoning traces with continuous hidden-state recurrence, but existing formulations are difficult to optimize with standard on-policy reinforcement learning (RL) and hard to interpret causally. Our key insight is that a single pair of explicit boundary tokens can address both issues at once: discrete entry and exit anchors make the latent block compatible with standard on-policy RL, and the same anchors offer a natural foothold for mechanistic analysis. Motivated by this, we propose SWITCH, a switchable latent reasoning framework. The model emits <swi> to enter latent mode and </swi> to exit. Because the boundaries are ordinary discrete tokens, the GRPO policy ratio is well-defined at every decision point. The same anchors also expose the latent steps to direct probing and causal intervention. We train the model with a visible-to-latent curriculum and a Switch-GRPO objective that propagates gradients through recurrent latent computation. SWITCH consistently outperforms prior hidden-state-recurrence latent reasoning approaches at similar scale. Mechanistic analysis through the boundary tokens further reveals three findings: (i) <swi> is a sharply localised, learned switching policy rather than a stylistic artefact; (ii) the latent step it opens performs problem-specific, causally important computation rather than acting as an inert placeholder; and (iii) that computation is concentrated at a single hidden-state transition on entry. Together, these results show that hidden-state-recurrence latent reasoning is both RL-trainable and open to direct mechanistic analysis, including of how on-policy RL itself improves the model from the inside.