Représentation plutôt que Routage : Surmonter le piratage de substitut dans le PPO multi-échelles temporelles

Résumé

L'attribution temporelle du crédit dans l'apprentissage par renforcement constitue depuis longtemps un défi central. Inspirées par l'encodage multi-échelle temporelle du système dopaminergique en neurobiologie, des recherches récentes ont cherché à introduire plusieurs facteurs d'actualisation dans les architectures Acteur-Critique, telles que l'Optimisation de Politique Proximale (PPO), afin d'équilibrer les réponses à court terme et la planification à long terme. Cependant, cet article révèle que la fusion aveugle de signaux multi-échelles temporelles dans des tâches complexes à récompenses différées peut entraîner de graves pathologies algorithmiques. Nous démontrons systématiquement qu'exposer un mécanisme de routage attentionnel temporel aux gradients de politique conduit à un détournement d'objectif substitut, tandis que l'adoption d'une pondération d'incertitude sans gradient déclenche une dégénérescence myope irréversible, un phénomène que nous nommons le Paradoxe de l'Incertitude Temporelle. Pour remédier à ces problèmes, nous proposons une architecture de Découplage de Cible : du côté du Critique, nous conservons les prédictions multi-échelles temporelles pour imposer un apprentissage auxiliaire de représentation, tandis que du côté de l'Acteur, nous isolons strictement les signaux à court terme et mettons à jour la politique uniquement sur la base des avantages à long terme. Des évaluations empiriques rigoureuses, menées sur plusieurs germes aléatoires indépendants dans l'environnement LunarLander-v2, démontrent que notre architecture proposée obtient des améliorations de performance statistiquement significatives. Sans recourir à un réglage hyperparamétrique arbitraire, elle dépasse systématiquement le seuil de résolution de l'environnement avec une variance minimale, élimine complètement l'effondrement de la politique et échappe aux optima locaux stagnants qui piègent les références à échelle temporelle unique. Le code source permettant de reproduire nos expériences est disponible publiquement à l'adresse https://github.com/ben-dlwlrma/Representation-Over-Routing.

English

Temporal credit assignment in reinforcement learning has long been a central challenge. Inspired by the multi-timescale encoding of the dopamine system in neurobiology, recent research has sought to introduce multiple discount factors into Actor-Critic architectures, such as Proximal Policy Optimization (PPO), to balance short-term responses with long-term planning. However, this paper reveals that blindly fusing multi-timescale signals in complex delayed-reward tasks can lead to severe algorithmic pathologies. We systematically demonstrate that exposing a temporal attention routing mechanism to policy gradients results in surrogate objective hacking, while adopting gradient-free uncertainty weighting triggers irreversible myopic degeneration, a phenomenon we term the Paradox of Temporal Uncertainty. To address these issues, we propose a Target Decoupling architecture: on the Critic side, we retain multi-timescale predictions to enforce auxiliary representation learning, while on the Actor side, we strictly isolate short-term signals and update the policy based solely on long-term advantages. Rigorous empirical evaluations across multiple independent random seeds in the LunarLander-v2 environment demonstrate that our proposed architecture achieves statistically significant performance improvements. Without relying on hyperparameter hacking, it consistently surpasses the ''Environment Solved'' threshold with minimal variance, completely eliminates policy collapse, and escapes the hovering local optima that trap single-timescale baselines. The source code to reproduce our experiments is publicly available at https://github.com/ben-dlwlrma/Representation-Over-Routing.