Routage latent dynamique

Résumé

Nous étudions la concaténation temporelle de sous-politiques dans les processus de décision markoviens (PDM) avec des fonctions de récompense variant dans le temps. Nous introduisons la Recherche Générale de Dijkstra (RGD) et prouvons que des politiques d'atteinte d'objectif globalement optimales peuvent être obtenues par composition temporelle de sous-politiques optimales intermédiaires. Motivés par le principe « chercher, sélectionner, mettre à jour » sous-jacent à la RGD, nous proposons le Routage Latent Dynamique (RLD), une méthode de post-entraînement de modèle de langage qui apprend conjointement des codes latents discrets, des politiques de routage et des paramètres de modèle grâce à une recherche dynamique en une seule étape d'entraînement. Dans des contextes de réglage fin avec peu de données, le RLD égal ou surpasse le réglage fin supervisé sur quatre ensembles de données et six modèles, réalisant un gain moyen de +6,6 points de pourcentage, tandis que les références de latents discrets antérieures sous-performent systématiquement le RFS. Des analyses mécanistes et des ablations ciblées du code montrent que le RLD apprend des comportements de routage structurés avec des rôles causaux distincts.

English

We investigate the temporal concatenation of sub-policies in Markov Decision Processes (MDP) with time-varying reward functions. We introduce General Dijkstra Search (GDS), and prove that globally optimal goal-reaching policies can be recovered through temporal composition of intermediate optimal sub-policies. Motivated by the "search, select, update" principle underlying GDS, we propose Dynamic Latent Routing (DLR), a language-model post-training method that jointly learns discrete latent codes, routing policies, and model parameters through dynamic search in a single training stage. In low-data fine-tuning settings, DLR matches or outperforms supervised fine-tuning across four datasets and six models, achieving a mean gain of +6.6 percentage points, while prior discrete-latent baselines consistently underperform SFT. Mechanistic analyses and targeted code ablations show that DLR learns structured routing behaviors with distinct causal roles.