Desmitificando la Recurrencia de Estado Oculto: Razonamiento Latente Conmutable con Aprendizaje por Refuerzo On-Policy

Resumen

La cadena de pensamiento latente comprime el razonamiento al reemplazar los rastros de razonamiento visibles con recurrencia de estado oculto continua, pero las formulaciones existentes son difíciles de optimizar con el aprendizaje por refuerzo (RL) on-policy estándar y difíciles de interpretar causalmente. Nuestra idea clave es que un solo par de tokens de frontera explícitos puede abordar ambos problemas a la vez: los anclajes de entrada y salida discretos hacen que el bloque latente sea compatible con el RL on-policy estándar, y los mismos anclajes ofrecen un punto de apoyo natural para el análisis mecanicista. Motivados por esto, proponemos SWITCH, un marco de razonamiento latente conmutable. El modelo emite \<swi\> para entrar en modo latente y \</swi\> para salir. Debido a que los límites son tokens discretos ordinarios, el ratio de política GRPO está bien definido en cada punto de decisión. Los mismos anclajes también exponen los pasos latentes a sondeo directo e intervención causal. Entrenamos el modelo con un currículo de visible a latente y un objetivo Switch-GRPO que propaga gradientes a través del cómputo recurrente latente. SWITCH supera consistentemente a enfoques anteriores de razonamiento latente con recurrencia de estado oculto a escala similar. El análisis mecanicista a través de los tokens de frontera revela además tres hallazgos: (i) \<swi\> es una política de conmutación aprendida y agudamente localizada, más que un artefacto estilístico; (ii) el paso latente que abre realiza un cómputo causalmente importante y específico del problema, en lugar de actuar como un marcador de posición inerte; y (iii) ese cómputo se concentra en una única transición de estado oculto en la entrada. En conjunto, estos resultados muestran que el razonamiento latente con recurrencia de estado oculto es tanto entrenable con RL como susceptible de análisis mecanicista directo, incluyendo cómo el propio RL on-policy mejora el modelo desde dentro.

English

Latent chain-of-thought compresses reasoning by replacing visible reasoning traces with continuous hidden-state recurrence, but existing formulations are difficult to optimize with standard on-policy reinforcement learning (RL) and hard to interpret causally. Our key insight is that a single pair of explicit boundary tokens can address both issues at once: discrete entry and exit anchors make the latent block compatible with standard on-policy RL, and the same anchors offer a natural foothold for mechanistic analysis. Motivated by this, we propose SWITCH, a switchable latent reasoning framework. The model emits <swi> to enter latent mode and </swi> to exit. Because the boundaries are ordinary discrete tokens, the GRPO policy ratio is well-defined at every decision point. The same anchors also expose the latent steps to direct probing and causal intervention. We train the model with a visible-to-latent curriculum and a Switch-GRPO objective that propagates gradients through recurrent latent computation. SWITCH consistently outperforms prior hidden-state-recurrence latent reasoning approaches at similar scale. Mechanistic analysis through the boundary tokens further reveals three findings: (i) <swi> is a sharply localised, learned switching policy rather than a stylistic artefact; (ii) the latent step it opens performs problem-specific, causally important computation rather than acting as an inert placeholder; and (iii) that computation is concentrated at a single hidden-state transition on entry. Together, these results show that hidden-state-recurrence latent reasoning is both RL-trainable and open to direct mechanistic analysis, including of how on-policy RL itself improves the model from the inside.