Entmystifizierung der versteckten Zustandsrekurrenz: Umschaltbares latentes Denken mit On-Policy-Verstärkungslernen

Zusammenfassung

Latente Gedankenkette komprimiert das Denken, indem sie sichtbare Denkspuren durch eine kontinuierliche Wiederholung verborgener Zustände ersetzt, aber bestehende Formulierungen sind mit standardmäßigem On-Policy Reinforcement Learning (RL) schwer zu optimieren und kausal schwer zu interpretieren. Unsere entscheidende Erkenntnis ist, dass ein einzelnes Paar expliziter Grenztoken beide Probleme gleichzeitig lösen kann: diskrete Eintritts- und Austrittsanker machen den latenten Block mit standardmäßigem On-Policy RL kompatibel, und dieselben Anker bieten einen natürlichen Ansatzpunkt für mechanistische Analysen. Motiviert davon schlagen wir SWITCH vor, ein schaltbares latentes Denkframework. Das Modell gibt <swi> aus, um in den latenten Modus zu wechseln, und </swi>, um ihn zu verlassen. Da die Grenzen gewöhnliche diskrete Token sind, ist das GRPO-Policy-Verhältnis an jedem Entscheidungspunkt wohldefiniert. Dieselben Anker setzen die latenten Schritte auch direkten Sondierungen und kausalen Interventionen aus. Wir trainieren das Modell mit einem sichtbar-zu-latenten Curriculum und einem Switch-GRPO-Ziel, das Gradienten durch rekurrente latente Berechnung propagiert. SWITCH übertrifft frühere Ansätze zum latenten Denken mit Wiederholung verborgener Zustände in ähnlichem Maßstab durchweg. Mechanistische Analyse durch die Grenztoken zeigt weiterhin drei Ergebnisse: (i) <swi> ist eine scharf lokalisierte, gelernte Umschaltstrategie und kein stilistisches Artefakt; (ii) der latente Schritt, den es öffnet, führt problemspezifische, kausal wichtige Berechnungen durch, anstatt als inaktiver Platzhalter zu fungieren; und (iii) diese Berechnung ist bei einem einzigen Übergang des verborgenen Zustands beim Eintritt konzentriert. Zusammen zeigen diese Ergebnisse, dass latentes Denken mit Wiederholung verborgener Zustände sowohl RL-trainierbar ist als auch für direkte mechanistische Analysen offen steht, einschließlich der Frage, wie On-Policy RL selbst das Modell von innen heraus verbessert.

English

Latent chain-of-thought compresses reasoning by replacing visible reasoning traces with continuous hidden-state recurrence, but existing formulations are difficult to optimize with standard on-policy reinforcement learning (RL) and hard to interpret causally. Our key insight is that a single pair of explicit boundary tokens can address both issues at once: discrete entry and exit anchors make the latent block compatible with standard on-policy RL, and the same anchors offer a natural foothold for mechanistic analysis. Motivated by this, we propose SWITCH, a switchable latent reasoning framework. The model emits <swi> to enter latent mode and </swi> to exit. Because the boundaries are ordinary discrete tokens, the GRPO policy ratio is well-defined at every decision point. The same anchors also expose the latent steps to direct probing and causal intervention. We train the model with a visible-to-latent curriculum and a Switch-GRPO objective that propagates gradients through recurrent latent computation. SWITCH consistently outperforms prior hidden-state-recurrence latent reasoning approaches at similar scale. Mechanistic analysis through the boundary tokens further reveals three findings: (i) <swi> is a sharply localised, learned switching policy rather than a stylistic artefact; (ii) the latent step it opens performs problem-specific, causally important computation rather than acting as an inert placeholder; and (iii) that computation is concentrated at a single hidden-state transition on entry. Together, these results show that hidden-state-recurrence latent reasoning is both RL-trainable and open to direct mechanistic analysis, including of how on-policy RL itself improves the model from the inside.