Representatie boven Routering: Het Overwinnen van Surrogaat Hacken in Multi-Tijdschaal PPO

Samenvatting

Temporele krediettoewijzing in reinforcement learning is al lang een centrale uitdaging. Geïnspireerd door de multi-tijdschaalcodering van het dopaminesysteem in de neurobiologie heeft recent onderzoek geprobeerd meerdere discountfactoren te introduceren in Actor-Critic-architecturen, zoals Proximal Policy Optimization (PPO), om korte-termijnresponsies in evenwicht te brengen met lange-termijnplanning. Dit artikel onthult echter dat het blindelings combineren van multi-tijdschaalsignalen in complexe taken met vertraagde beloningen kan leiden tot ernstige algoritmische pathologieën. We tonen systematisch aan dat het blootstellen van een temporeel aandachtsrouteringsmechanisme aan beleidsgradiënten leidt tot surrogaatdoelwit-manipulatie, terwijl het toepassen van gradiëntvrije onzekerheidsweging een onomkeerbare myopische degeneratie teweegbrengt – een fenomeen dat we de Paradox van Temporele Onzekerheid noemen. Om deze problemen aan te pakken stellen we een Target Decoupling-architectuur voor: aan de Critic-zijde behouden we multi-tijdschaalvoorspellingen om hulprepresentatie-leren af te dwingen, terwijl we aan de Actor-zijde korte-termijnsignalen strikt isoleren en het beleid uitsluitend bijwerken op basis van lange-termijnvoordelen. Grondige empirische evaluaties over meerdere onafhankelijke random seeds in de LunarLander-v2-omgeving tonen aan dat onze voorgestelde architectuur statistisch significante prestatieverbeteringen behaalt. Zonder te vertrouwen op hyperparameter-manipulatie overschrijdt het consistent de 'Environment Solved'-drempel met minimale variantie, elimineert het volledig beleidsinstorting en ontsnapt het aan de stagnerende lokale optima waarin single-tijdschaal-baselines vastzitten. De broncode om onze experimenten te reproduceren is openbaar beschikbaar op https://github.com/ben-dlwlrma/Representation-Over-Routing.

English

Temporal credit assignment in reinforcement learning has long been a central challenge. Inspired by the multi-timescale encoding of the dopamine system in neurobiology, recent research has sought to introduce multiple discount factors into Actor-Critic architectures, such as Proximal Policy Optimization (PPO), to balance short-term responses with long-term planning. However, this paper reveals that blindly fusing multi-timescale signals in complex delayed-reward tasks can lead to severe algorithmic pathologies. We systematically demonstrate that exposing a temporal attention routing mechanism to policy gradients results in surrogate objective hacking, while adopting gradient-free uncertainty weighting triggers irreversible myopic degeneration, a phenomenon we term the Paradox of Temporal Uncertainty. To address these issues, we propose a Target Decoupling architecture: on the Critic side, we retain multi-timescale predictions to enforce auxiliary representation learning, while on the Actor side, we strictly isolate short-term signals and update the policy based solely on long-term advantages. Rigorous empirical evaluations across multiple independent random seeds in the LunarLander-v2 environment demonstrate that our proposed architecture achieves statistically significant performance improvements. Without relying on hyperparameter hacking, it consistently surpasses the ''Environment Solved'' threshold with minimal variance, completely eliminates policy collapse, and escapes the hovering local optima that trap single-timescale baselines. The source code to reproduce our experiments is publicly available at https://github.com/ben-dlwlrma/Representation-Over-Routing.