Repräsentation vor Routing: Überwindung von Surrogate-Hacking in Multi-Zeitskalen-PPO

Zusammenfassung

Die zeitliche Kreditzuweisung im Bestärkenden Lernen stellt seit jeher eine zentrale Herausforderung dar. Inspiriert durch die mehrskalige zeitliche Kodierung des Dopaminsystems in der Neurobiologie hat die jüngste Forschung versucht, mehrere Diskontierungsfaktoren in Actor-Critic-Architekturen wie Proximal Policy Optimization (PPO) einzuführen, um kurzfristige Reaktionen mit langfristiger Planung auszugleichen. Allerdings zeigt diese Arbeit, dass eine blinde Fusion mehrskaliger Signale in komplexen Aufgaben mit verzögerter Belohnung zu schwerwiegenden algorithmischen Pathologien führen kann. Wir weisen systematisch nach, dass die Offenlegung eines temporalen Aufmerksamkeits-Routing-Mechanismus gegenüber Politikgradienten zu Surrogatzielfunktions-Hacking führt, während die Verwendung gradientenfreier Unsicherheitsgewichtung eine irreversible myopische Degeneration auslöst – ein Phänomen, das wir als Paradoxon der temporalen Unsicherheit bezeichnen. Um diese Probleme zu beheben, schlagen wir eine Zielentkopplungs-Architektur vor: Auf der Critic-Seite behalten wir mehrskalige Vorhersagen bei, um ein unterstützendes Repräsentationslernen zu erzwingen, während wir auf der Actor-Seite kurzfristige Signale strikt isolieren und die Politik ausschließlich auf Basis langfristiger Vorteile aktualisieren. Strenge empirische Evaluierungen über mehrere unabhängige Zufallskeeds in der LunarLander-v2-Umgebung zeigen, dass unsere vorgeschlagene Architektur statistisch signifikante Leistungsverbesserungen erzielt. Ohne auf Hyperparameter-Hacking angewiesen zu sein, überschreitet sie konsistent die Schwelle "Umgebung gelöst" mit minimaler Varianz, eliminiert vollständig Politikzusammenbrüche und entkommt den schwebenden lokalen Optima, in denen Einzelzeitskalen-Baselines gefangen bleiben. Der Quellcode zur Reproduktion unserer Experimente ist öffentlich zugänglich unter https://github.com/ben-dlwlrma/Representation-Over-Routing.

English

Temporal credit assignment in reinforcement learning has long been a central challenge. Inspired by the multi-timescale encoding of the dopamine system in neurobiology, recent research has sought to introduce multiple discount factors into Actor-Critic architectures, such as Proximal Policy Optimization (PPO), to balance short-term responses with long-term planning. However, this paper reveals that blindly fusing multi-timescale signals in complex delayed-reward tasks can lead to severe algorithmic pathologies. We systematically demonstrate that exposing a temporal attention routing mechanism to policy gradients results in surrogate objective hacking, while adopting gradient-free uncertainty weighting triggers irreversible myopic degeneration, a phenomenon we term the Paradox of Temporal Uncertainty. To address these issues, we propose a Target Decoupling architecture: on the Critic side, we retain multi-timescale predictions to enforce auxiliary representation learning, while on the Actor side, we strictly isolate short-term signals and update the policy based solely on long-term advantages. Rigorous empirical evaluations across multiple independent random seeds in the LunarLander-v2 environment demonstrate that our proposed architecture achieves statistically significant performance improvements. Without relying on hyperparameter hacking, it consistently surpasses the ''Environment Solved'' threshold with minimal variance, completely eliminates policy collapse, and escapes the hovering local optima that trap single-timescale baselines. The source code to reproduce our experiments is publicly available at https://github.com/ben-dlwlrma/Representation-Over-Routing.