ChatPaper.aiChatPaper

Comprensión y Mejora del Aprendizaje por Refuerzo Profundo Hiperbólico

Understanding and Improving Hyperbolic Deep Reinforcement Learning

December 16, 2025
Autores: Timo Klein, Thomas Lang, Andrii Shkabrii, Alexander Sturm, Kevin Sidak, Lukas Miklautz, Claudia Plant, Yllka Velaj, Sebastian Tschiatschek
cs.AI

Resumen

El rendimiento de los agentes de aprendizaje por refuerzo (RL) depende críticamente de la calidad de las representaciones de características subyacentes. Los espacios de características hiperbólicos son muy adecuados para este propósito, ya que capturan de forma natural la estructura jerárquica y relacional que suele estar presente en entornos complejos de RL. Sin embargo, el aprovechamiento de estos espacios comúnmente enfrenta desafíos de optimización debido a la no estacionariedad del RL. En este trabajo, identificamos los factores clave que determinan el éxito y el fracaso del entrenamiento de agentes profundos de RL hiperbólicos. Al analizar los gradientes de las operaciones centrales en los modelos de Bola de Poincaré e Hiperboloide de la geometría hiperbólica, demostramos que las incrustaciones de norma grande desestabilizan el entrenamiento basado en gradientes, lo que conduce a violaciones de la región de confianza en la optimización de políticas proximales (PPO). Basándonos en estas ideas, presentamos Hyper++, un nuevo agente PPO hiperbólico que consta de tres componentes: (i) entrenamiento estable del crítico mediante una pérdida de valor categórica en lugar de regresión; (ii) regularización de características que garantiza normas acotadas mientras evita la maldición de la dimensionalidad del recorte; y (iii) el uso de una formulación más amigable para la optimización de las capas de red hiperbólicas. En experimentos con ProcGen, mostramos que Hyper++ garantiza un aprendizaje estable, supera a los agentes hiperbólicos anteriores y reduce el tiempo de ejecución en aproximadamente un 30%. En Atari-5 con Double DQN, Hyper++ supera ampliamente a los baselines euclidianos e hiperbólicos. Publicamos nuestro código en https://github.com/Probabilistic-and-Interactive-ML/hyper-rl.
English
The performance of reinforcement learning (RL) agents depends critically on the quality of the underlying feature representations. Hyperbolic feature spaces are well-suited for this purpose, as they naturally capture hierarchical and relational structure often present in complex RL environments. However, leveraging these spaces commonly faces optimization challenges due to the nonstationarity of RL. In this work, we identify key factors that determine the success and failure of training hyperbolic deep RL agents. By analyzing the gradients of core operations in the Poincaré Ball and Hyperboloid models of hyperbolic geometry, we show that large-norm embeddings destabilize gradient-based training, leading to trust-region violations in proximal policy optimization (PPO). Based on these insights, we introduce Hyper++, a new hyperbolic PPO agent that consists of three components: (i) stable critic training through a categorical value loss instead of regression; (ii) feature regularization guaranteeing bounded norms while avoiding the curse of dimensionality from clipping; and (iii) using a more optimization-friendly formulation of hyperbolic network layers. In experiments on ProcGen, we show that Hyper++ guarantees stable learning, outperforms prior hyperbolic agents, and reduces wall-clock time by approximately 30%. On Atari-5 with Double DQN, Hyper++ strongly outperforms Euclidean and hyperbolic baselines. We release our code at https://github.com/Probabilistic-and-Interactive-ML/hyper-rl .
PDF42December 19, 2025