Динамическая латентная маршрутизация

Аннотация

Мы исследуем временную конкатенацию субполитик в марковских процессах принятия решений (MDP) с изменяющимися во времени функциями вознаграждения. Мы представляем обобщенный поиск Дейкстры (GDS) и доказываем, что глобально оптимальные политики достижения целей могут быть восстановлены путем временной композиции промежуточных оптимальных субполитик. Руководствуясь принципом «поиск, выбор, обновление», лежащим в основе GDS, мы предлагаем метод динамического латентного маршрутизации (DLR) — метод посттренировки языковых моделей, который совместно обучает дискретные латентные коды, политики маршрутизации и параметры модели посредством динамического поиска на одном этапе обучения. В условиях тонкой настройки с малым объемом данных DLR достигает уровня, сопоставимого с контролируемой тонкой настройкой или превосходит ее на четырех наборах данных и шести моделях, обеспечивая средний прирост в 6,6 процентных пункта, в то время как предыдущие базовые методы с дискретным латентным пространством consistently уступают SFT. Механистический анализ и целенаправленные абляции кода показывают, что DLR обучает структурированные модели поведения маршрутизации с четкими каузальными ролями.

English

We investigate the temporal concatenation of sub-policies in Markov Decision Processes (MDP) with time-varying reward functions. We introduce General Dijkstra Search (GDS), and prove that globally optimal goal-reaching policies can be recovered through temporal composition of intermediate optimal sub-policies. Motivated by the "search, select, update" principle underlying GDS, we propose Dynamic Latent Routing (DLR), a language-model post-training method that jointly learns discrete latent codes, routing policies, and model parameters through dynamic search in a single training stage. In low-data fine-tuning settings, DLR matches or outperforms supervised fine-tuning across four datasets and six models, achieving a mean gain of +6.6 percentage points, while prior discrete-latent baselines consistently underperform SFT. Mechanistic analyses and targeted code ablations show that DLR learns structured routing behaviors with distinct causal roles.