Roteamento Latente Dinâmico

Resumo

Investigamos a concatenação temporal de subpolíticas em Processos de Decisão de Markov (MDP) com funções de recompensa variáveis no tempo. Introduzimos a Busca Global de Dijkstra (GDS) e provamos que políticas ótimas globais para alcance de metas podem ser recuperadas por meio da composição temporal de subpolíticas ótimas intermediárias. Motivados pelo princípio "buscar, selecionar, atualizar" subjacente ao GDS, propomos o Roteamento Latente Dinâmico (DLR), um método de pós-treinamento de modelos de linguagem que aprende conjuntamente códigos latentes discretos, políticas de roteamento e parâmetros do modelo por meio de busca dinâmica em um único estágio de treinamento. Em cenários de ajuste fino com poucos dados, o DLR iguala ou supera o ajuste fino supervisionado em quatro conjuntos de dados e seis modelos, alcançando um ganho médio de +6,6 pontos percentuais, enquanto as linhas de base com latência discreta anteriores apresentam desempenho consistentemente inferior ao SFT. Análises mecanicistas e ablações de código direcionadas mostram que o DLR aprende comportamentos de roteamento estruturados com papéis causais distintos.

English

We investigate the temporal concatenation of sub-policies in Markov Decision Processes (MDP) with time-varying reward functions. We introduce General Dijkstra Search (GDS), and prove that globally optimal goal-reaching policies can be recovered through temporal composition of intermediate optimal sub-policies. Motivated by the "search, select, update" principle underlying GDS, we propose Dynamic Latent Routing (DLR), a language-model post-training method that jointly learns discrete latent codes, routing policies, and model parameters through dynamic search in a single training stage. In low-data fine-tuning settings, DLR matches or outperforms supervised fine-tuning across four datasets and six models, achieving a mean gain of +6.6 percentage points, while prior discrete-latent baselines consistently underperform SFT. Mechanistic analyses and targeted code ablations show that DLR learns structured routing behaviors with distinct causal roles.