Representación sobre Enrutamiento: Superando la Explotación del Sustituto en PPO de Múltiples Escalas Temporales

Resumen

La asignación de crédito temporal en el aprendizaje por refuerzo ha sido durante mucho tiempo un desafío central. Inspirada por la codificación multiescala temporal del sistema de dopamina en neurobiología, la investigación reciente ha buscado introducir múltiples factores de descuento en arquitecturas Actor-Crítico, como la Optimización de Política Proximal (PPO), para equilibrar las respuestas a corto plazo con la planificación a largo plazo. Sin embargo, este artículo revela que fusionar ciegamente señales multiescala temporal en tareas complejas de recompensa retardada puede conducir a patologías algorítmicas graves. Demostramos sistemáticamente que exponer un mecanismo de enrutamiento de atención temporal a los gradientes de política resulta en un hackeo del objetivo sustituto, mientras que adoptar ponderación de incertidumbre sin gradientes desencadena una degeneración miope irreversible, un fenómeno que denominamos la Paradoja de la Incertidumbre Temporal. Para abordar estos problemas, proponemos una arquitectura de Desacoplamiento de Objetivo: en el lado del Crítico, mantenemos predicciones multiescala temporal para imponer el aprendizaje de representaciones auxiliares, mientras que en el lado del Actor, aislamos estrictamente las señales a corto plazo y actualizamos la política basándonos únicamente en las ventajas a largo plazo. Evaluaciones empíricas rigurosas a través de múltiples semillas aleatorias independientes en el entorno LunarLander-v2 demuestran que nuestra arquitectura propuesta logra mejoras de rendimiento estadísticamente significativas. Sin depender del ajuste de hiperparámetros, supera consistentemente el umbral de "Entorno Resuelto" con una varianza mínima, elimina por completo el colapso de la política y escapa de los óptimos locales flotantes que atrapan las líneas base de escala temporal única. El código fuente para reproducir nuestros experimentos está disponible públicamente en https://github.com/ben-dlwlrma/Representation-Over-Routing.

English

Temporal credit assignment in reinforcement learning has long been a central challenge. Inspired by the multi-timescale encoding of the dopamine system in neurobiology, recent research has sought to introduce multiple discount factors into Actor-Critic architectures, such as Proximal Policy Optimization (PPO), to balance short-term responses with long-term planning. However, this paper reveals that blindly fusing multi-timescale signals in complex delayed-reward tasks can lead to severe algorithmic pathologies. We systematically demonstrate that exposing a temporal attention routing mechanism to policy gradients results in surrogate objective hacking, while adopting gradient-free uncertainty weighting triggers irreversible myopic degeneration, a phenomenon we term the Paradox of Temporal Uncertainty. To address these issues, we propose a Target Decoupling architecture: on the Critic side, we retain multi-timescale predictions to enforce auxiliary representation learning, while on the Actor side, we strictly isolate short-term signals and update the policy based solely on long-term advantages. Rigorous empirical evaluations across multiple independent random seeds in the LunarLander-v2 environment demonstrate that our proposed architecture achieves statistically significant performance improvements. Without relying on hyperparameter hacking, it consistently surpasses the ''Environment Solved'' threshold with minimal variance, completely eliminates policy collapse, and escapes the hovering local optima that trap single-timescale baselines. The source code to reproduce our experiments is publicly available at https://github.com/ben-dlwlrma/Representation-Over-Routing.