Démystification de la récurrence d'état caché : raisonnement latent commutable par apprentissage par renforcement sur politique

Résumé

La chaîne de pensée latente comprime le raisonnement en remplaçant les traces de raisonnement visibles par une récurrence continue d'états cachés, mais les formulations existantes sont difficiles à optimiser avec l'apprentissage par renforcement (RL) standard sur politique et difficiles à interpréter de manière causale. Notre idée clé est qu'une seule paire de jetons de délimitation explicites peut résoudre les deux problèmes à la fois : des ancres d'entrée et de sortie discrètes rendent le bloc latent compatible avec le RL standard sur politique, et les mêmes ancres offrent un point d'appui naturel pour l'analyse mécaniste. Motivés par cela, nous proposons SWITCH, un cadre de raisonnement latent commutable. Le modèle émet <swi> pour entrer en mode latent et </swi> pour en sortir. Comme les délimitations sont des jetons discrets ordinaires, le ratio de politique GRPO est bien défini à chaque point de décision. Les mêmes ancres exposent également les étapes latentes à des sondages directs et à des interventions causales. Nous entraînons le modèle avec un curriculum visible-à-latent et un objectif Switch-GRPO qui propage les gradients à travers le calcul latent récurrent. SWITCH surpasse systématiquement les approches précédentes de raisonnement latent par récurrence d'états cachés à échelle similaire. L'analyse mécaniste à travers les jetons de délimitation révèle en outre trois résultats : (i) <swi> est une politique de commutation apprise, nettement localisée, plutôt qu'un artefact stylistique ; (ii) l'étape latente qu'il ouvre effectue un calcul spécifique au problème et causalement important, plutôt que d'agir comme un espace réservé inerte ; et (iii) ce calcul est concentré sur une seule transition d'état caché à l'entrée. Ensemble, ces résultats montrent que le raisonnement latent par récurrence d'états cachés est à la fois entraînable par RL et ouvert à une analyse mécaniste directe, y compris la manière dont le RL sur politique améliore le modèle de l'intérieur.

English

Latent chain-of-thought compresses reasoning by replacing visible reasoning traces with continuous hidden-state recurrence, but existing formulations are difficult to optimize with standard on-policy reinforcement learning (RL) and hard to interpret causally. Our key insight is that a single pair of explicit boundary tokens can address both issues at once: discrete entry and exit anchors make the latent block compatible with standard on-policy RL, and the same anchors offer a natural foothold for mechanistic analysis. Motivated by this, we propose SWITCH, a switchable latent reasoning framework. The model emits <swi> to enter latent mode and </swi> to exit. Because the boundaries are ordinary discrete tokens, the GRPO policy ratio is well-defined at every decision point. The same anchors also expose the latent steps to direct probing and causal intervention. We train the model with a visible-to-latent curriculum and a Switch-GRPO objective that propagates gradients through recurrent latent computation. SWITCH consistently outperforms prior hidden-state-recurrence latent reasoning approaches at similar scale. Mechanistic analysis through the boundary tokens further reveals three findings: (i) <swi> is a sharply localised, learned switching policy rather than a stylistic artefact; (ii) the latent step it opens performs problem-specific, causally important computation rather than acting as an inert placeholder; and (iii) that computation is concentrated at a single hidden-state transition on entry. Together, these results show that hidden-state-recurrence latent reasoning is both RL-trainable and open to direct mechanistic analysis, including of how on-policy RL itself improves the model from the inside.