Representação em vez de Roteamento: Superando o Hacking de Substituto no PPO com Múltiplas Escalas Temporais

Resumo

A atribuição de crédito temporal no aprendizado por reforço há muito tempo constitui um desafio central. Inspirada pela codificação em múltiplas escalas temporais do sistema dopaminérgico na neurobiologia, pesquisas recentes têm buscado introduzir múltiplos fatores de desconto em arquiteturas Ator-Crítico, como a Otimização de Política Proximal (PPO), para equilibrar respostas de curto prazo com planejamento de longo prazo. No entanto, este artigo revela que a fusão cega de sinais de múltiplas escalas temporais em tarefas complexas de recompensa atrasada pode levar a patologias algorítmicas graves. Demonstramos sistematicamente que expor um mecanismo de roteamento de atenção temporal a gradientes de política resulta em manipulação de objetivo substituto, enquanto a adoção de ponderação de incerteza livre de gradiente desencadeia degeneração míope irreversível, fenômeno que denominamos Paradoxo da Incerteza Temporal. Para resolver esses problemas, propomos uma arquitetura de Desacoplamento de Alvo: no lado do Crítico, mantemos previsões de múltiplas escalas temporais para impor aprendizado de representação auxiliar, enquanto no lado do Ator, isolamos estritamente sinais de curto prazo e atualizamos a política com base apenas em vantagens de longo prazo. Avaliações empíricas rigorosas, realizadas com múltiplas sementes aleatórias independentes no ambiente LunarLander-v2, demonstram que a arquitetura proposta alcança melhorias de desempenho estatisticamente significativas. Sem depender de manipulação de hiperparâmetros, ela supera consistentemente o limiar de "Ambiente Resolvido" com variância mínima, elimina completamente o colapso de política e escapa dos ótimos locais pairantes que aprisionam as linhas de base de escala temporal única. O código-fonte para reproduzir nossos experimentos está disponível publicamente em https://github.com/ben-dlwlrma/Representation-Over-Routing.

English

Temporal credit assignment in reinforcement learning has long been a central challenge. Inspired by the multi-timescale encoding of the dopamine system in neurobiology, recent research has sought to introduce multiple discount factors into Actor-Critic architectures, such as Proximal Policy Optimization (PPO), to balance short-term responses with long-term planning. However, this paper reveals that blindly fusing multi-timescale signals in complex delayed-reward tasks can lead to severe algorithmic pathologies. We systematically demonstrate that exposing a temporal attention routing mechanism to policy gradients results in surrogate objective hacking, while adopting gradient-free uncertainty weighting triggers irreversible myopic degeneration, a phenomenon we term the Paradox of Temporal Uncertainty. To address these issues, we propose a Target Decoupling architecture: on the Critic side, we retain multi-timescale predictions to enforce auxiliary representation learning, while on the Actor side, we strictly isolate short-term signals and update the policy based solely on long-term advantages. Rigorous empirical evaluations across multiple independent random seeds in the LunarLander-v2 environment demonstrate that our proposed architecture achieves statistically significant performance improvements. Without relying on hyperparameter hacking, it consistently surpasses the ''Environment Solved'' threshold with minimal variance, completely eliminates policy collapse, and escapes the hovering local optima that trap single-timescale baselines. The source code to reproduce our experiments is publicly available at https://github.com/ben-dlwlrma/Representation-Over-Routing.