Dynamisches Latentes Routing

Zusammenfassung

Wir untersuchen die zeitliche Verkettung von Teilpolitiken in Markov-Entscheidungsprozessen (MDP) mit zeitvariierenden Belohnungsfunktionen. Wir führen General Dijkstra Search (GDS) ein und beweisen, dass global optimale zielerreichende Politiken durch zeitliche Komposition zwischenzeitlich optimaler Teilpolitiken wiederhergestellt werden können. Motiviert durch das „Suchen, Auswählen, Aktualisieren“-Prinzip, das GDS zugrunde liegt, schlagen wir Dynamic Latent Routing (DLR) vor, eine Nachtrainingsmethode für Sprachmodelle, die gemeinsam diskrete latente Codes, Routing-Politiken und Modellparameter durch dynamische Suche in einer einzigen Trainingsphase lernt. In Einstellungen mit wenigen Daten zum Feintuning erreicht DLR in vier Datensätzen und sechs Modellen eine vergleichbare oder bessere Leistung als überwachtes Feintuning, mit einem durchschnittlichen Zugewinn von +6,6 Prozentpunkten, während frühere diskret-latente Basislinien durchweg schlechter abschneiden als SFT. Mechanistische Analysen und gezielte Code-Ablationen zeigen, dass DLR strukturierte Routing-Verhaltensweisen mit unterschiedlichen kausalen Rollen erlernt.

English

We investigate the temporal concatenation of sub-policies in Markov Decision Processes (MDP) with time-varying reward functions. We introduce General Dijkstra Search (GDS), and prove that globally optimal goal-reaching policies can be recovered through temporal composition of intermediate optimal sub-policies. Motivated by the "search, select, update" principle underlying GDS, we propose Dynamic Latent Routing (DLR), a language-model post-training method that jointly learns discrete latent codes, routing policies, and model parameters through dynamic search in a single training stage. In low-data fine-tuning settings, DLR matches or outperforms supervised fine-tuning across four datasets and six models, achieving a mean gain of +6.6 percentage points, while prior discrete-latent baselines consistently underperform SFT. Mechanistic analyses and targeted code ablations show that DLR learns structured routing behaviors with distinct causal roles.