Desmistificando a Recorrência de Estado Oculto: Raciocínio Latente Comutável com Aprendizado por Reforço On-Policy

Resumo

A cadeia de pensamento latente comprime o raciocínio ao substituir vestígios de raciocínio visíveis por recorrência contínua do estado oculto, mas as formulações existentes são difíceis de otimizar com a aprendizagem por reforço (RL) on-policy padrão e difíceis de interpretar causalmente. Nossa percepção fundamental é que um único par de tokens explícitos de fronteira pode resolver ambas as questões simultaneamente: âncoras discretas de entrada e saída tornam o bloco latente compatível com RL on-policy padrão, e as mesmas âncoras oferecem um ponto de apoio natural para análise mecanicista. Motivados por isso, propomos o SWITCH, uma estrutura de raciocínio latente comutável. O modelo emite <swi> para entrar no modo latente e </swi> para sair. Como as fronteiras são tokens discretos comuns, a razão da política GRPO é bem definida em cada ponto de decisão. As mesmas âncoras também expõem as etapas latentes a sondagens diretas e intervenções causais. Treinamos o modelo com um currículo visível-para-latente e um objetivo Switch-GRPO que propaga gradientes através da computação latente recorrente. O SWITCH supera consistentemente abordagens anteriores de raciocínio latente por recorrência de estado oculto em escalas semelhantes. A análise mecanicista através dos tokens de fronteira revela ainda três descobertas: (i) <swi> é uma política de comutação aprendida e nitidamente localizada, e não um artefato estilístico; (ii) a etapa latente que ele abre realiza uma computação causalmente importante e específica do problema, em vez de atuar como um espaço reservado inerte; e (iii) essa computação está concentrada em uma única transição de estado oculto na entrada. Juntos, esses resultados mostram que o raciocínio latente por recorrência de estado oculto é tanto treinável por RL quanto aberto a análise mecanicista direta, inclusive de como a própria RL on-policy melhora o modelo internamente.

English

Latent chain-of-thought compresses reasoning by replacing visible reasoning traces with continuous hidden-state recurrence, but existing formulations are difficult to optimize with standard on-policy reinforcement learning (RL) and hard to interpret causally. Our key insight is that a single pair of explicit boundary tokens can address both issues at once: discrete entry and exit anchors make the latent block compatible with standard on-policy RL, and the same anchors offer a natural foothold for mechanistic analysis. Motivated by this, we propose SWITCH, a switchable latent reasoning framework. The model emits <swi> to enter latent mode and </swi> to exit. Because the boundaries are ordinary discrete tokens, the GRPO policy ratio is well-defined at every decision point. The same anchors also expose the latent steps to direct probing and causal intervention. We train the model with a visible-to-latent curriculum and a Switch-GRPO objective that propagates gradients through recurrent latent computation. SWITCH consistently outperforms prior hidden-state-recurrence latent reasoning approaches at similar scale. Mechanistic analysis through the boundary tokens further reveals three findings: (i) <swi> is a sharply localised, learned switching policy rather than a stylistic artefact; (ii) the latent step it opens performs problem-specific, causally important computation rather than acting as an inert placeholder; and (iii) that computation is concentrated at a single hidden-state transition on entry. Together, these results show that hidden-state-recurrence latent reasoning is both RL-trainable and open to direct mechanistic analysis, including of how on-policy RL itself improves the model from the inside.