Enrutamiento Latente Dinámico

Resumen

Investigamos la concatenación temporal de subpolíticas en Procesos de Decisión de Markov (MDP) con funciones de recompensa que varían en el tiempo. Introducimos la Búsqueda General de Dijkstra (GDS) y demostramos que las políticas globalmente óptimas para alcanzar objetivos pueden recuperarse mediante la composición temporal de subpolíticas óptimas intermedias. Motivados por el principio de "buscar, seleccionar, actualizar" subyacente a GDS, proponemos el Enrutamiento Latente Dinámico (DLR), un método de post-entrenamiento de modelos de lenguaje que aprende conjuntamente códigos latentes discretos, políticas de enrutamiento y parámetros del modelo mediante búsqueda dinámica en una única etapa de entrenamiento. En configuraciones de ajuste fino con pocos datos, DLR iguala o supera al ajuste fino supervisado en cuatro conjuntos de datos y seis modelos, logrando una ganancia media de +6.6 puntos porcentuales, mientras que las líneas base previas de latente discreto rinden consistentemente peor que SFT. Los análisis mecanicistas y las ablaciones de código dirigidas muestran que DLR aprende comportamientos de enrutamiento estructurados con roles causales distintos.

English

We investigate the temporal concatenation of sub-policies in Markov Decision Processes (MDP) with time-varying reward functions. We introduce General Dijkstra Search (GDS), and prove that globally optimal goal-reaching policies can be recovered through temporal composition of intermediate optimal sub-policies. Motivated by the "search, select, update" principle underlying GDS, we propose Dynamic Latent Routing (DLR), a language-model post-training method that jointly learns discrete latent codes, routing policies, and model parameters through dynamic search in a single training stage. In low-data fine-tuning settings, DLR matches or outperforms supervised fine-tuning across four datasets and six models, achieving a mean gain of +6.6 percentage points, while prior discrete-latent baselines consistently underperform SFT. Mechanistic analyses and targeted code ablations show that DLR learns structured routing behaviors with distinct causal roles.