Представление вместо маршрутизации: Преодоление суррогатного взлома в многошкальном PPO

Аннотация

Временное распределение кредитов в обучении с подкреплением долгое время остаётся ключевой проблемой. Вдохновлённое многомасштабным кодированием дофаминовой системы в нейробиологии, недавние исследования предприняли попытку ввести несколько коэффициентов дисконтирования в архитектуры актора-критика, такие как проксимальная оптимизация политики (PPO), для балансирования краткосрочных реакций и долгосрочного планирования. Однако в данной статье показывается, что слепое слияние многомасштабных сигналов в сложных задачах с отложенным вознаграждением может приводить к серьёзным алгоритмическим патологиям. Мы систематически демонстрируем, что подвергание механизма временной маршрутизации внимания градиентам политики ведёт к взлому суррогатной целевой функции, в то время как использование безградиентного взвешивания неопределённости вызывает необратимую миопическую дегенерацию — явление, которое мы называем парадоксом временной неопределённости. Для решения этих проблем мы предлагаем архитектуру развязывания целей: на стороне критика мы сохраняем многомасштабные предсказания для обеспечения вспомогательного обучения представлениям, тогда как на стороне актора мы строго изолируем краткосрочные сигналы и обновляем политику исключительно на основе долгосрочных преимуществ. Строгие эмпирические оценки на множестве независимых случайных инициализаций в среде LunarLander-v2 показывают, что предложенная архитектура достигает статистически значимого улучшения производительности. Не прибегая к манипуляции гиперпараметрами, она устойчиво превосходит порог «Среда решена» с минимальной дисперсией, полностью устраняет коллапс политики и выходит из зависания в локальных оптимумах, которые свойственны базовым методам с одним масштабом времени. Исходный код для воспроизведения наших экспериментов открыто доступен по адресу https://github.com/ben-dlwlrma/Representation-Over-Routing.

English

Temporal credit assignment in reinforcement learning has long been a central challenge. Inspired by the multi-timescale encoding of the dopamine system in neurobiology, recent research has sought to introduce multiple discount factors into Actor-Critic architectures, such as Proximal Policy Optimization (PPO), to balance short-term responses with long-term planning. However, this paper reveals that blindly fusing multi-timescale signals in complex delayed-reward tasks can lead to severe algorithmic pathologies. We systematically demonstrate that exposing a temporal attention routing mechanism to policy gradients results in surrogate objective hacking, while adopting gradient-free uncertainty weighting triggers irreversible myopic degeneration, a phenomenon we term the Paradox of Temporal Uncertainty. To address these issues, we propose a Target Decoupling architecture: on the Critic side, we retain multi-timescale predictions to enforce auxiliary representation learning, while on the Actor side, we strictly isolate short-term signals and update the policy based solely on long-term advantages. Rigorous empirical evaluations across multiple independent random seeds in the LunarLander-v2 environment demonstrate that our proposed architecture achieves statistically significant performance improvements. Without relying on hyperparameter hacking, it consistently surpasses the ''Environment Solved'' threshold with minimal variance, completely eliminates policy collapse, and escapes the hovering local optima that trap single-timescale baselines. The source code to reproduce our experiments is publicly available at https://github.com/ben-dlwlrma/Representation-Over-Routing.