Compreendendo e Aprimorando o Aprendizado por Reforço Profundo Hiperbólico

Resumo

O desempenho de agentes de aprendizagem por reforço (RL) depende criticamente da qualidade das representações de características subjacentes. Os espaços hiperbólicos de características são bem adequados para este propósito, pois capturam naturalmente a estrutura hierárquica e relacional frequentemente presente em ambientes complexos de RL. No entanto, o aproveitamento destes espaços enfrenta comumente desafios de otimização devido à não estacionariedade do RL. Neste trabalho, identificamos os fatores-chave que determinam o sucesso e o fracasso do treino de agentes de RL profundos hiperbólicos. Ao analisar os gradientes das operações centrais nos modelos Bola de Poincaré e Hiperboloide da geometria hiperbólica, mostramos que *embeddings* de norma grande desestabilizam o treino baseado em gradientes, levando a violações da região de confiança na otimização de políticas proximais (PPO). Com base nestas perceções, introduzimos o Hyper++, um novo agente PPO hiperbólico que consiste em três componentes: (i) treino estável do crítico através de uma perda de valor categórica em vez de regressão; (ii) regularização de características que garante normas limitadas, evitando simultaneamente a maldição da dimensionalidade do *clipping*; e (iii) a utilização de uma formulação mais amigável à otimização para as camadas de rede hiperbólicas. Em experiências no ProcGen, mostramos que o Hyper++ garante uma aprendizagem estável, supera os agentes hiperbólicos anteriores e reduz o tempo de relógio em aproximadamente 30%. No Atari-5 com Double DQN, o Hyper++ supera significativamente as linhas de base euclidianas e hiperbólicas. Disponibilizamos o nosso código em https://github.com/Probabilistic-and-Interactive-ML/hyper-rl.

English

The performance of reinforcement learning (RL) agents depends critically on the quality of the underlying feature representations. Hyperbolic feature spaces are well-suited for this purpose, as they naturally capture hierarchical and relational structure often present in complex RL environments. However, leveraging these spaces commonly faces optimization challenges due to the nonstationarity of RL. In this work, we identify key factors that determine the success and failure of training hyperbolic deep RL agents. By analyzing the gradients of core operations in the Poincaré Ball and Hyperboloid models of hyperbolic geometry, we show that large-norm embeddings destabilize gradient-based training, leading to trust-region violations in proximal policy optimization (PPO). Based on these insights, we introduce Hyper++, a new hyperbolic PPO agent that consists of three components: (i) stable critic training through a categorical value loss instead of regression; (ii) feature regularization guaranteeing bounded norms while avoiding the curse of dimensionality from clipping; and (iii) using a more optimization-friendly formulation of hyperbolic network layers. In experiments on ProcGen, we show that Hyper++ guarantees stable learning, outperforms prior hyperbolic agents, and reduces wall-clock time by approximately 30%. On Atari-5 with Double DQN, Hyper++ strongly outperforms Euclidean and hyperbolic baselines. We release our code at https://github.com/Probabilistic-and-Interactive-ML/hyper-rl .